跳至主要內容
3 · 第2學期演化生物學系統分類學

親緣分析方法

Phylogenetic Methods

難度 3 · 進階evolutionbioinformatics想做成互動版

系統發生分析在 21 世紀已從少數基因片段的分析擴展為基因組尺度的統計推論,但也面臨新的挑戰與爭議。

理論基礎:統計一致性

Felsenstein(1978, Syst. Zool.)著名證明在特定條件下簡約法不具統計一致性(long-branch attraction, LBA):即使資料無限增加,也會收斂到錯誤樹。Hendy & Penny(1989)的 "Felsenstein zone" 定量此風險區。ML 與貝氏方法在正確模型下具一致性,但在模型誤設時也可收斂到錯誤答案(Yang, 2014, Molecular Evolution)。

最大似然法的計算革命

Felsenstein(1981, J. Mol. Evol.)的 pruning algorithm 使 ML 在計算上可行,為系統發生學計算奠基。Stamatakis(2006)的 RAxML 引入 rapid bootstrap 與 MPI 平行運算;Nguyen et al.(2015, Mol. Biol. Evol.)的 IQ-TREE 引入 ultrafast bootstrap 與 ModelFinder。Zhang et al.(2020, Mol. Biol. Evol.)的 IQ-TREE 2 將基因組尺度分析整合至單一框架。

貝氏方法的發展

Yang & Rannala(1997, Mol. Biol. Evol.)與 Mau et al.(1999)奠定貝氏系統發生學的 MCMC 框架。Huelsenbeck & Ronquist(2001, Bioinformatics)的 MrBayes 成為標準軟體。BEAST(Drummond & Rambaut, 2007, BMC Evol. Biol.)整合鬆弛分子鐘與演化時間推論,是 molecular dating 的主流工具。詳見 bayesian-phylogeny 條目。

替換模型的演進

  • Tavaré(1986):建立 GTR 模型的完整理論。
  • **Yang(1994, J. Mol. Evol.)**:Γ 分布的位點速率異質性。
  • Codon models:Goldman & Yang(1994, Mol. Biol. Evol.)建立 codon-based ω=dN/dS 模型,用於偵測正向選擇。
  • Mixture models:CAT (Lartillot & Philippe, 2004, Mol. Biol. Evol.) 在深層分歧的蛋白質演化中優於 GTR。

物種樹 vs 基因樹的不相容

在 genomic 時代成為核心問題:

1. Incomplete lineage sorting (ILS):祖先多態性未固定前發生分歧,不同基因可在不同物種組合中合併。

2. Hemiplasy(Avise & Robinson, 2008):ILS 導致的性狀分布看似同塑性。

3. Horizontal gene transfer (HGT)hybridization/introgression:基因在物種間傳遞,產生不同的基因樹。

解決策略:

  • Multispecies coalescent (MSC):ASTRAL(Mirarab et al., 2014, Bioinformatics)以 quartet frequencies 估計物種樹。
  • StarBEAST2(Ogilvie et al., 2017):整合 MSC 與分子鐘
  • Concatenation vs coalescent:Gatesy & Springer(2014, Mol. Phylogenet. Evol.)vs Mirarab et al.(2016)的長期辯論。

系統發生基因組學(Phylogenomics)

Delsuc et al.(2005, Nat. Rev. Genet.)的綜述標誌 phylogenomics 紀元。核心挑戰:

  • Systematic error:大資料可強化錯誤訊號(如 LBA、組成偏差、飽和)
  • Model misspecification:ML/貝氏在錯誤模型下可高信心支持錯誤樹(Phillips et al., 2004, PLoS Biol.
  • Data filtering:對快速飽和位點、罕見 indel、長枝的處理

典型應用:

  • 鳥類基因組學(Jarvis et al., 2014, Science):48 種鳥類基因組解析新穎鳥類爆炸性輻射。
  • 昆蟲系統發生(Misof et al., 2014, Science):1478 個基因解析昆蟲目級關係。
  • 哺乳類 TimeTree(Upham et al., 2019, PLoS Biol.):5911 物種的時間校正樹。

Outgroup 選擇的系統影響

Bergsten(2005, Cladistics)綜述 outgroup 問題:outgroup 太遠 → LBA 風險;太近 → 可能落在 ingroup 內。多 outgroup 並行分析為現代標準。

網絡系統發生學(Phylogenetic Networks)

嚴格樹狀結構無法描述網狀演化(hybridization, HGT, recombination)。SplitsTree(Huson & Bryant, 2006, Mol. Biol. Evol.)、PhyloNet(Than et al., 2008)、SNaQ(Solís-Lemus & Ané, 2016)提供網絡推論。

模型複雜度的取捨

Susko & Roger(2020, Mol. Biol. Evol.)警告:過度參數化(over-parameterization)反而降低推論準確性;簡單模型在充分資料下可能優於過度複雜模型。Heaps et al.(2014)以非均質模型處理鹼基組成異質性。

分支支持度的批判

Felsenstein(1985, Evolution)引入 bootstrap 為系統發生學的統計檢驗。然而:

  • 貝氏後驗機率常高估支持度(Cummings et al., 2003, Syst. Biol.
  • ML bootstrap 對小樣本保守
  • ultrafast bootstrap(Hoang et al., 2018, Mol. Biol. Evol.)與 ABayes(Anisimova et al., 2011)提供平衡方案

前沿:(1) 全基因組對齊的系統發生(Cactus, Armstrong et al., 2020, Nature);(2) 深度學習應用於系統發生推論(Suvorov et al., 2020; Solis-Lemus et al., 2022);(3) 古 DNA 整合至現生系統發生(Slatkin & Racimo, 2016);(4) single-cell 譜系追蹤的 tree reconstruction 演算法。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關