系統發生分析在 21 世紀已從少數基因片段的分析擴展為基因組尺度的統計推論,但也面臨新的挑戰與爭議。
理論基礎:統計一致性
Felsenstein(1978, Syst. Zool.)著名證明在特定條件下簡約法不具統計一致性(long-branch attraction, LBA):即使資料無限增加,也會收斂到錯誤樹。Hendy & Penny(1989)的 "Felsenstein zone" 定量此風險區。ML 與貝氏方法在正確模型下具一致性,但在模型誤設時也可收斂到錯誤答案(Yang, 2014, Molecular Evolution)。
最大似然法的計算革命
Felsenstein(1981, J. Mol. Evol.)的 pruning algorithm 使 ML 在計算上可行,為系統發生學計算奠基。Stamatakis(2006)的 RAxML 引入 rapid bootstrap 與 MPI 平行運算;Nguyen et al.(2015, Mol. Biol. Evol.)的 IQ-TREE 引入 ultrafast bootstrap 與 ModelFinder。Zhang et al.(2020, Mol. Biol. Evol.)的 IQ-TREE 2 將基因組尺度分析整合至單一框架。
貝氏方法的發展
Yang & Rannala(1997, Mol. Biol. Evol.)與 Mau et al.(1999)奠定貝氏系統發生學的 MCMC 框架。Huelsenbeck & Ronquist(2001, Bioinformatics)的 MrBayes 成為標準軟體。BEAST(Drummond & Rambaut, 2007, BMC Evol. Biol.)整合鬆弛分子鐘與演化時間推論,是 molecular dating 的主流工具。詳見 bayesian-phylogeny 條目。
替換模型的演進
- Tavaré(1986):建立 GTR 模型的完整理論。
- **Yang(1994, J. Mol. Evol.)**:Γ 分布的位點速率異質性。
- Codon models:Goldman & Yang(1994, Mol. Biol. Evol.)建立 codon-based ω=dN/dS 模型,用於偵測正向選擇。
- Mixture models:CAT (Lartillot & Philippe, 2004, Mol. Biol. Evol.) 在深層分歧的蛋白質演化中優於 GTR。
物種樹 vs 基因樹的不相容
在 genomic 時代成為核心問題:
1. Incomplete lineage sorting (ILS):祖先多態性未固定前發生分歧,不同基因可在不同物種組合中合併。
2. Hemiplasy(Avise & Robinson, 2008):ILS 導致的性狀分布看似同塑性。
3. Horizontal gene transfer (HGT) 與 hybridization/introgression:基因在物種間傳遞,產生不同的基因樹。
解決策略:
- Multispecies coalescent (MSC):ASTRAL(Mirarab et al., 2014, Bioinformatics)以 quartet frequencies 估計物種樹。
- StarBEAST2(Ogilvie et al., 2017):整合 MSC 與分子鐘。
- Concatenation vs coalescent:Gatesy & Springer(2014, Mol. Phylogenet. Evol.)vs Mirarab et al.(2016)的長期辯論。
系統發生基因組學(Phylogenomics)
Delsuc et al.(2005, Nat. Rev. Genet.)的綜述標誌 phylogenomics 紀元。核心挑戰:
- Systematic error:大資料可強化錯誤訊號(如 LBA、組成偏差、飽和)
- Model misspecification:ML/貝氏在錯誤模型下可高信心支持錯誤樹(Phillips et al., 2004, PLoS Biol.)
- Data filtering:對快速飽和位點、罕見 indel、長枝的處理
典型應用:
- 鳥類基因組學(Jarvis et al., 2014, Science):48 種鳥類基因組解析新穎鳥類爆炸性輻射。
- 昆蟲系統發生(Misof et al., 2014, Science):1478 個基因解析昆蟲目級關係。
- 哺乳類 TimeTree(Upham et al., 2019, PLoS Biol.):5911 物種的時間校正樹。
Outgroup 選擇的系統影響
Bergsten(2005, Cladistics)綜述 outgroup 問題:outgroup 太遠 → LBA 風險;太近 → 可能落在 ingroup 內。多 outgroup 並行分析為現代標準。
網絡系統發生學(Phylogenetic Networks)
嚴格樹狀結構無法描述網狀演化(hybridization, HGT, recombination)。SplitsTree(Huson & Bryant, 2006, Mol. Biol. Evol.)、PhyloNet(Than et al., 2008)、SNaQ(Solís-Lemus & Ané, 2016)提供網絡推論。
模型複雜度的取捨
Susko & Roger(2020, Mol. Biol. Evol.)警告:過度參數化(over-parameterization)反而降低推論準確性;簡單模型在充分資料下可能優於過度複雜模型。Heaps et al.(2014)以非均質模型處理鹼基組成異質性。
分支支持度的批判
Felsenstein(1985, Evolution)引入 bootstrap 為系統發生學的統計檢驗。然而:
- 貝氏後驗機率常高估支持度(Cummings et al., 2003, Syst. Biol.)
- ML bootstrap 對小樣本保守
- ultrafast bootstrap(Hoang et al., 2018, Mol. Biol. Evol.)與 ABayes(Anisimova et al., 2011)提供平衡方案
前沿:(1) 全基因組對齊的系統發生(Cactus, Armstrong et al., 2020, Nature);(2) 深度學習應用於系統發生推論(Suvorov et al., 2020; Solis-Lemus et al., 2022);(3) 古 DNA 整合至現生系統發生(Slatkin & Racimo, 2016);(4) single-cell 譜系追蹤的 tree reconstruction 演算法。
