跳至主要內容
3 · 第2學期演化生物學系統分類學

分子親緣學

Molecular Phylogenetics

難度 4 · 專業evolutionbioinformaticsmolecular-biology

分子系統發生學自 Zuckerkandl & Pauling(1962, J. Theor. Biol.; 1965, Evolving Genes and Proteins)奠基以來,經歷從單基因到基因組尺度的質變,並發展出處理基因樹-物種樹不一致的精密統計框架。

歷史軌跡

Fitch & Margoliash(1967, Science)以細胞色素 c 序列建立脊椎動物樹。Woese(1987, Microbiol. Rev.)以 16S rRNA 重塑生命三域分類(Bacteria、Archaea、Eukarya)。Hillis & Moritz(1990, Molecular Systematics)的經典教科書系統化分子方法論。PCR(Mullis 1983)的發明使分子系統發生學民主化。

替換模型的演進與選擇

詳見 phylogenetic-methods 條目。核心進展:

  • Tavaré(1986)建立 GTR
  • Yang(1994, J. Mol. Evol.)Γ 分布
  • Foster(2004, Syst. Biol.)非均質模型處理組成偏差
  • Lartillot & Philippe(2004, Mol. Biol. Evol.)CAT mixture model
  • Wang et al.(2018, Syst. Biol.)GHOST(general heterogeneous evolution on trees)模型

ModelTest-NG(Darriba et al., 2020, Mol. Biol. Evol.)整合 AIC/BIC/DT 模型選擇。

Incomplete Lineage Sorting 的量化

Maddison(1997, Syst. Biol.)奠定基因樹-物種樹不相容的統計框架。在 coalescent 模型下,兩次連續物種分歧間時間較短(<4Ne 世代)時 ILS 機率高。Rosenberg(2002, Evolution)計算 ILS 的理論比例;Degnan & Rosenberg(2006, PLoS Genet.)證明 anomalous gene tree(常見基因樹拓撲≠物種樹)可在多物種 coalescent 下產生,警示「基因樹多數投票」策略的危險。

multispecies coalescent 方法學

  • ASTRAL(Mirarab et al., 2014, Bioinformatics; Zhang et al., 2018):以 quartet frequencies 估計 coalescent-consistent species tree,現為標準。
  • **StarBEAST2(Ogilvie et al., 2017, Mol. Biol. Evol.)**:整合 multispecies coalescent 與 molecular clock。
  • SVDquartets(Chifman & Kubatko, 2014, Bioinformatics:基於單位點的 coalescent 推論。
  • Polymorphism-aware phylogenetic models(PoMo, De Maio et al., 2015):將族群層級多態性整合至系統發生模型。

Hybridization 與 introgression 的偵測

D-statistics(ABBA-BABA test, Green et al., 2010, Science:原用於偵測尼安德塔人對現代人類的基因流,現已成為 introgression 偵測標準。Patterson et al.(2012, Genetics)以 f-statistics 擴展為族群結構推論框架。Malinsky et al.(2015, Science)以 D-statistics 定位慈鯛中的 introgression 熱點。

Phylogenetic networks(SplitsTree, NeighborNet, PhyloNet)提供網狀推論。Solis-Lemus et al.(2017)的 SNaQ 結合 coalescent 與 reticulation。

Horizontal Gene Transfer

Boto(2010, Proc. R. Soc. B)綜述 HGT 在原核生物演化的核心角色。偵測方法:

  • Phylogenetic incongruence
  • Compositional analysis(GC 含量、codon usage 異常)
  • BLAST-based(近似方法)
  • HGTector, DarkHorse(專業工具)

Koonin & Wolf(2008)的 "web of life" 視野取代經典 tree of life,尤其在 prokaryotes。

Gene family evolution

Ortholog vs paralog 辨識是比較基因組學的核心挑戰。OrthoDB(Kriventseva et al., 2019)、OrthoMCL、OrthoFinder(Emms & Kelly, 2019, Genome Biol.)提供不同策略。錯誤的 paralog-as-ortholog 使用可嚴重扭曲系統發生推論(Philippe et al., 2005, PLoS Biol.)。

Phylogenomics 的陷阱

Phillips et al.(2004, PLoS Biol.)警告大資料下 systematic error 可產生高信心的錯誤答案。Jeffroy et al.(2006, Trends Genet.)綜述 phylogenomics 的主要陷阱:

  • Long-branch attraction in large datasets
  • Compositional bias
  • Model inadequacy
  • Missing data pattern

Shen et al.(2017, Nat. Ecol. Evol.)以「single-gene outlier」分析顯示少數極端基因可主導整體結論。Simion et al.(2017, Curr. Biol.)以 jackknife 分析解決海綿 vs 櫛水母 sister to all animals 爭議。

關鍵案例

  • 鳥類基因組學(Jarvis et al., 2014, Science; Prum et al., 2015, Nature:48 種 vs 200+ 種分析給出一致的鳥類輻射樹,支持 K-Pg 後的爆炸性輻射。
  • 昆蟲 1KITE(Misof et al., 2014, Science:1478 個 OGS 基因解析昆蟲目級關係。
  • 哺乳類系統發生:Meredith et al.(2011, Science)、Foley et al.(2023, Science)。
  • 植物系統發生(Zanne et al., 2014, Nature;One Thousand Plant Transcriptomes Initiative, 2019, Nature)。

新興方向

1. 全基因組對齊系統發生

  • Cactus(Armstrong et al., 2020, Nature)處理 600+ 物種的 progressive alignment
  • ProgressiveMauve(Darling et al., 2010)用於細菌

2. 古 DNA 整合

  • Slatkin & Racimo(2016, PNAS)methodology review
  • Meyer et al.(2016, Nature)Sima de los Huesos 古 DNA 重塑尼安德塔-丹尼索瓦關係

3. Single-cell 系統發生

  • Lineage tracing 的計算(Salvador-Martinez et al., 2019)
  • CRISPR-based barcoding(McKenna et al., 2016, Science

4. 機器學習應用

  • Suvorov et al.(2020, Syst. Biol.)深度學習系統發生推論
  • Solis-Lemus et al.(2022)topology inference

前沿挑戰:(1) 基因組尺度 model misspecification 的診斷與校正;(2) 非樹狀演化(reticulation)的通用框架;(3) 時間校正的分子時鐘與化石整合的精緻化(tip-dating、FBD)。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關