跳至主要內容
4 · 第1學期生物資訊學序列分析

多序列比對

Multiple Sequence Alignment

難度 3 · 進階bioinformatics想做成互動版

序列比對是序列分析中最重要也最具挑戰性的問題之一。最佳 MSA 的 NP-hard 本質(Wang & Jiang, 1994)迫使研究者發展各種啟發式策略。

漸進式方法的數學基礎

漸進式比對的理論基礎是 Feng & Doolittle(1987)提出的假設:「用相似度作為同源性代理」。導引樹的拓撲結構決定了比對的合併順序。profile-profile 比對使用平均得分:S(C_a, C_b) = Σ_{x,y} f_a(x) × f_b(y) × s(x,y),其中 f 是頻率向量,s 是替代矩陣。

ClustalΩ 的創新在於使用 mBed 方法(Blackshields et al., 2010)將 N 條序列嵌入 O(N log N) 空間中計算導引樹,避免 O(N²) 的全對全比對。HHalign 引擎使用 HMM-HMM 比對提升 profile-profile 的準確度。

機率框架:pair-HMM 與一致性轉換

Pair-HMM 模型序列比對為隱藏狀態的轉換過程:Match 狀態(兩序列各出一個殘基)、Insert-X(X 出殘基、Y 出缺口)、Insert-Y(反向)。前後演算法計算每對殘基的配對後驗機率 P(xi~yj | x,y)。

一致性轉換(Probabilistic Consistency Transformation, PCT)利用第三條序列 z 調整兩條序列 x,y 的配對機率:P*(xiyj) = Σ_k P(xizk) × P(zk~yj)。PROBCONS 和 ProbAlign 實作此方法,在 BAliBASE benchmark 上達到最高準確度。

迭代精化策略

MUSCLE 的 tree-dependent partitioning:(1) 根據導引樹隨機選擇一條邊 (2) 將比對分為兩組 (3) 重新比對兩組的 profile (4) 若 SP score 改善則接受新比對。重複直到收斂。

BAli-Phy(Suchard & Redelings, 2006)使用 MCMC 同時估計 MSA 和演化樹,是理論上最正確但計算量最大的方法——共同估計避免了漸進式方法中 MSA 和樹相互依賴的循環問題。

結構感知比對

3D-Coffee 整合蛋白質結構資訊改善序列比對。PROMALS3D 結合結構疊合和序列資訊。在遠距同源蛋白質(序列一致性 < 30%,即 twilight zone)中,結構感知方法顯著優於純序列方法。

AlphaFold2 預測結構的出現改變了遊戲規則:Foldseek(van Kempen et al., 2024)可直接基於結構進行搜尋和比對,繞過序列層級的限制。

大規模 MSA 的應用

MSA 深度和多樣性直接影響下游分析品質:coevolution 分析(DCA, EVcouplings)從 MSA 推斷殘基接觸、蛋白質結構預測AlphaFold2 的 Evoformer 模組以 MSA 為輸入)、系統發育推論。UniRef 和 MGnify 提供了數十億條序列的來源,JackHMMER 和 ColabFold 的 MMseqs2 搜尋是構建深度 MSA 的標準流程。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關