大4 · 第1學期生物資訊學序列分析

多序列比對

Multiple Sequence Alignment

難度 3 · 進階bioinformatics想做成互動版

多序列比對是序列分析中最重要也最具挑戰性的問題之一。最佳 MSA 的 NP-hard 本質（Wang & Jiang, 1994）迫使研究者發展各種啟發式策略。

漸進式方法的數學基礎

漸進式比對的理論基礎是 Feng & Doolittle（1987）提出的假設：「用相似度作為同源性代理」。導引樹的拓撲結構決定了比對的合併順序。profile-profile 比對使用平均得分：S(C_a, C_b) = Σ_{x,y} f_a(x) × f_b(y) × s(x,y)，其中 f 是頻率向量，s 是替代矩陣。

ClustalΩ 的創新在於使用 mBed 方法（Blackshields et al., 2010）將 N 條序列嵌入 O(N log N) 空間中計算導引樹，避免 O(N²) 的全對全比對。HHalign 引擎使用 HMM-HMM 比對提升 profile-profile 的準確度。

機率框架：pair-HMM 與一致性轉換

Pair-HMM 模型序列比對為隱藏狀態的轉換過程：Match 狀態（兩序列各出一個殘基）、Insert-X（X 出殘基、Y 出缺口）、Insert-Y（反向）。前後演算法計算每對殘基的配對後驗機率 P(xi~yj | x,y)。

一致性轉換（Probabilistic Consistency Transformation, PCT）利用第三條序列 z 調整兩條序列 x,y 的配對機率：P*(xi~~yj) = Σ_k P(xi~~zk) × P(zk~yj)。PROBCONS 和 ProbAlign 實作此方法，在 BAliBASE benchmark 上達到最高準確度。

迭代精化策略

MUSCLE 的 tree-dependent partitioning：(1) 根據導引樹隨機選擇一條邊 (2) 將比對分為兩組 (3) 重新比對兩組的 profile (4) 若 SP score 改善則接受新比對。重複直到收斂。

BAli-Phy（Suchard & Redelings, 2006）使用 MCMC 同時估計 MSA 和演化樹，是理論上最正確但計算量最大的方法——共同估計避免了漸進式方法中 MSA 和樹相互依賴的循環問題。

結構感知比對

3D-Coffee 整合蛋白質結構資訊改善序列比對。PROMALS3D 結合結構疊合和序列資訊。在遠距同源蛋白質（序列一致性 < 30%，即 twilight zone）中，結構感知方法顯著優於純序列方法。

AlphaFold2 預測結構的出現改變了遊戲規則：Foldseek（van Kempen et al., 2024）可直接基於結構進行搜尋和比對，繞過序列層級的限制。

大規模 MSA 的應用

MSA 深度和多樣性直接影響下游分析品質：coevolution 分析（DCA, EVcouplings）從 MSA 推斷殘基接觸、蛋白質結構預測（AlphaFold2 的 Evoformer 模組以 MSA 為輸入）、系統發育推論。UniRef 和 MGnify 提供了數十億條序列的來源，JackHMMER 和 ColabFold 的 MMseqs2 搜尋是構建深度 MSA 的標準流程。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

序列比對

生物資訊學 · 序列分析

難度 3 · 進階