分子系統發生學自 Zuckerkandl & Pauling(1962, J. Theor. Biol.; 1965, Evolving Genes and Proteins)奠基以來,經歷從單基因到基因組尺度的質變,並發展出處理基因樹-物種樹不一致的精密統計框架。
歷史軌跡
Fitch & Margoliash(1967, Science)以細胞色素 c 序列建立脊椎動物樹。Woese(1987, Microbiol. Rev.)以 16S rRNA 重塑生命三域分類(Bacteria、Archaea、Eukarya)。Hillis & Moritz(1990, Molecular Systematics)的經典教科書系統化分子方法論。PCR(Mullis 1983)的發明使分子系統發生學民主化。
替換模型的演進與選擇
詳見 phylogenetic-methods 條目。核心進展:
- Tavaré(1986)建立 GTR
- Yang(1994, J. Mol. Evol.)Γ 分布
- Foster(2004, Syst. Biol.)非均質模型處理組成偏差
- Lartillot & Philippe(2004, Mol. Biol. Evol.)CAT mixture model
- Wang et al.(2018, Syst. Biol.)GHOST(general heterogeneous evolution on trees)模型
ModelTest-NG(Darriba et al., 2020, Mol. Biol. Evol.)整合 AIC/BIC/DT 模型選擇。
Incomplete Lineage Sorting 的量化
Maddison(1997, Syst. Biol.)奠定基因樹-物種樹不相容的統計框架。在 coalescent 模型下,兩次連續物種分歧間時間較短(<4Ne 世代)時 ILS 機率高。Rosenberg(2002, Evolution)計算 ILS 的理論比例;Degnan & Rosenberg(2006, PLoS Genet.)證明 anomalous gene tree(常見基因樹拓撲≠物種樹)可在多物種 coalescent 下產生,警示「基因樹多數投票」策略的危險。
multispecies coalescent 方法學
- ASTRAL(Mirarab et al., 2014, Bioinformatics; Zhang et al., 2018):以 quartet frequencies 估計 coalescent-consistent species tree,現為標準。
- **StarBEAST2(Ogilvie et al., 2017, Mol. Biol. Evol.)**:整合 multispecies coalescent 與 molecular clock。
- SVDquartets(Chifman & Kubatko, 2014, Bioinformatics):基於單位點的 coalescent 推論。
- Polymorphism-aware phylogenetic models(PoMo, De Maio et al., 2015):將族群層級多態性整合至系統發生模型。
Hybridization 與 introgression 的偵測
D-statistics(ABBA-BABA test, Green et al., 2010, Science):原用於偵測尼安德塔人對現代人類的基因流,現已成為 introgression 偵測標準。Patterson et al.(2012, Genetics)以 f-statistics 擴展為族群結構推論框架。Malinsky et al.(2015, Science)以 D-statistics 定位慈鯛中的 introgression 熱點。
Phylogenetic networks(SplitsTree, NeighborNet, PhyloNet)提供網狀推論。Solis-Lemus et al.(2017)的 SNaQ 結合 coalescent 與 reticulation。
Horizontal Gene Transfer
Boto(2010, Proc. R. Soc. B)綜述 HGT 在原核生物演化的核心角色。偵測方法:
- Phylogenetic incongruence
- Compositional analysis(GC 含量、codon usage 異常)
- BLAST-based(近似方法)
- HGTector, DarkHorse(專業工具)
Koonin & Wolf(2008)的 "web of life" 視野取代經典 tree of life,尤其在 prokaryotes。
Gene family evolution
Ortholog vs paralog 辨識是比較基因組學的核心挑戰。OrthoDB(Kriventseva et al., 2019)、OrthoMCL、OrthoFinder(Emms & Kelly, 2019, Genome Biol.)提供不同策略。錯誤的 paralog-as-ortholog 使用可嚴重扭曲系統發生推論(Philippe et al., 2005, PLoS Biol.)。
Phylogenomics 的陷阱
Phillips et al.(2004, PLoS Biol.)警告大資料下 systematic error 可產生高信心的錯誤答案。Jeffroy et al.(2006, Trends Genet.)綜述 phylogenomics 的主要陷阱:
- Long-branch attraction in large datasets
- Compositional bias
- Model inadequacy
- Missing data pattern
Shen et al.(2017, Nat. Ecol. Evol.)以「single-gene outlier」分析顯示少數極端基因可主導整體結論。Simion et al.(2017, Curr. Biol.)以 jackknife 分析解決海綿 vs 櫛水母 sister to all animals 爭議。
關鍵案例
- 鳥類基因組學(Jarvis et al., 2014, Science; Prum et al., 2015, Nature):48 種 vs 200+ 種分析給出一致的鳥類輻射樹,支持 K-Pg 後的爆炸性輻射。
- 昆蟲 1KITE(Misof et al., 2014, Science):1478 個 OGS 基因解析昆蟲目級關係。
- 哺乳類系統發生:Meredith et al.(2011, Science)、Foley et al.(2023, Science)。
- 植物系統發生(Zanne et al., 2014, Nature;One Thousand Plant Transcriptomes Initiative, 2019, Nature)。
新興方向
1. 全基因組對齊系統發生:
- Cactus(Armstrong et al., 2020, Nature)處理 600+ 物種的 progressive alignment
- ProgressiveMauve(Darling et al., 2010)用於細菌
2. 古 DNA 整合:
- Slatkin & Racimo(2016, PNAS)methodology review
- Meyer et al.(2016, Nature)Sima de los Huesos 古 DNA 重塑尼安德塔-丹尼索瓦關係
3. Single-cell 系統發生:
- Lineage tracing 的計算(Salvador-Martinez et al., 2019)
- CRISPR-based barcoding(McKenna et al., 2016, Science)
4. 機器學習應用:
- Suvorov et al.(2020, Syst. Biol.)深度學習系統發生推論
- Solis-Lemus et al.(2022)topology inference
前沿挑戰:(1) 基因組尺度 model misspecification 的診斷與校正;(2) 非樹狀演化(reticulation)的通用框架;(3) 時間校正的分子時鐘與化石整合的精緻化(tip-dating、FBD)。
