貝氏系統發生學自 1990 年代末發展以來,已從「另一種方法」成熟為整合複雜演化過程的標準框架。
理論基礎與早期發展
Rannala & Yang(1996, J. Mol. Evol.)與 Yang & Rannala(1997, Mol. Biol. Evol.)奠定貝氏系統發生學的統計基礎。Mau et al.(1999, Biometrics)首次實作完整 MCMC 系統發生。Larget & Simon(1999, Mol. Biol. Evol.)引入 SPR/TBR tree rearrangement proposals。Huelsenbeck et al.(2001, Science)綜述貝氏方法並討論其優勢。
MCMC 提議分布的工程
Tree space 的幾何結構使 MCMC 高效採樣困難。Lakner et al.(2008, Syst. Biol.)比較不同 tree moves:
- NNI(Nearest Neighbor Interchange):小步伐
- SPR(Subtree Pruning and Regrafting):中步伐
- TBR(Tree Bisection and Reconnection):大步伐
組合使用改善混合。Metropolis-coupled MCMC(Altekar et al., 2004, Bioinformatics)成為 MrBayes 標配。
複雜模型的整合
貝氏框架易於整合多維不確定性。經典應用:
1. Partitioned models:不同基因或 codon position 用不同替換模型(Nylander et al., 2004, Syst. Biol.)。
2. Mixture models:
- CAT(Lartillot & Philippe, 2004, Mol. Biol. Evol.)為深層系統發生
- GHOST(Crotty et al., 2020, Syst. Biol.)處理跨位點的速率與模型異質性
3. Dating 整合:BEAST 整合 relaxed clock + tree prior + calibration priors。
4. Trait evolution:系統發生比較方法在貝氏框架下自然整合(見 phylogenetic comparative methods 條目)。
Reversible-jump MCMC(rjMCMC)
Green(1995, Biometrika)開發跨不同維度參數空間的 MCMC。應用:
- 模型平均(model averaging)— Huelsenbeck et al.(2004, Syst. Biol.)
- 跨 partition 策略選擇
- 離散 vs 連續性狀模型比較
Marginal likelihood 估計
傳統 harmonic mean estimator(Newton & Raftery, 1994)存在嚴重偏差。現代方法:
- Stepping-stone sampling(Xie et al., 2011, Syst. Biol.):標準工具
- Path sampling / thermodynamic integration(Lartillot & Philippe, 2006, Syst. Biol.)
- Generalized stepping-stone(Fan et al., 2011, Mol. Biol. Evol.):處理 tree prior 不匹配
Bayes factor 的應用
- 替換模型比較
- 時鐘模型選擇(strict vs relaxed)
- 校準點的相容性檢驗
- 樹拓撲假設檢驗(Bergsten et al., 2013, Cladistics)
BEAST 生態系
Suchard et al.(2018, Virus Evol.)綜述 BEAST 1.X。Bouckaert et al.(2019, PLoS Comput. Biol.)介紹 BEAST 2.6。關鍵擴展:
- Phylogeography:Lemey et al.(2009, PLoS Comput. Biol.)的 discrete-trait diffusion 擴展至 continuous diffusion(Lemey et al., 2010, Mol. Biol. Evol.)
- SkyGrid / Bayesian Skyline:族群動態推論(Minin et al., 2008; Gill et al., 2013)
- Fossilized birth-death(Heath et al., 2014, PNAS)
- StarBEAST2:多物種 coalescent
- BEAST-X (Fisher et al., 2025):加速大資料
RevBayes 的革命
Höhna et al.(2016, Syst. Biol.)介紹 RevBayes 的圖形模型框架,允許研究者以 probabilistic programming 方式建構自訂模型。應用於:
- 形態演化模型(Dinosaur systematics)
- 多型狀演化
- 聯合族群遺傳-系統發生
收斂診斷的進展
- ESS via Tracer(Rambaut et al., 2018, Syst. Biol.)
- PSRF / R̂(Gelman & Rubin, 1992)
- Geweke diagnostic
- bpcomp(bipartition comparison between runs, in PhyloBayes)
Hassler et al.(2023, Syst. Biol.)指出 tree space 的 MCMC 收斂常被低估;即使 ESS 高,tree topology 採樣可能未充分混合。提出 topology-specific diagnostics。
先驗敏感性
dos Reis & Yang(2013, Biol. J. Linn. Soc.)警示 time-calibrated analyses 對 calibration priors 極敏感,尤其在 deep nodes。Brown & Smith(2018, Syst. Biol.)系統討論 prior mis-specification 的影響。
計算加速
- BEAGLE(Ayres et al., 2012, Syst. Biol.):GPU 加速 likelihood 計算
- Variational Bayesian phylogenetics(Zhang & Matsen, 2018, NeurIPS):以變分推論近似後驗,大幅加速
- 機器學習輔助(Suvorov et al., 2020)
貝氏與 ML 的和解
當代多數分析結合兩方法:
- ML 快速初步分析(IQ-TREE, RAxML)
- 貝氏精細後驗與時間校準(BEAST, MrBayes)
Anisimova et al.(2011, Syst. Biol.)的 ABayes 提供 ML 框架下的近似後驗支持度。
前沿:(1) Phylogenetic Hamiltonian Monte Carlo(HMC)提升高維參數採樣(Fisher et al., 2021);(2) Normalizing flows 為 tree space 的新潮流;(3) 結合 deep learning 的 amortized inference;(4) 大資料 phylogenomics 的貝氏可擴展性挑戰;(5) causal inference 整合至系統發生比較法。
