大4 · 第1學期生物資訊學基因體分析

宏基因體學

Metagenomics

難度 4 · 專業bioinformaticsmicrobiology想做成互動版

宏基因體學的理論基礎建立在培養非依賴性（culture-independent）方法之上。Pace et al.（1986）率先使用環境 16S rRNA 基因選殖揭示了未培養微生物的巨大多樣性；Handelsman et al.（1998）正式提出 metagenomics 一詞。Venter et al.（2004）的 Sargasso Sea 全基因體鳥槍定序是里程碑式的研究，從 200 L 海水中鑑定出 148 個新的細菌門系和 120 萬個新基因。

組裝與分箱
宏基因體組裝面臨獨特挑戰：不均勻的覆蓋深度（豐度差異可達 10^5 倍）、種間共享的保守區域造成嵌合組裝（chimeric contigs）、以及近緣物種的微小差異。MEGAHIT 使用 succinct de Bruijn graph 降低記憶體需求；metaSPAdes 在多個 k-mer 值下組裝並整合結果。

分箱（Binning）是將組裝後的 contigs 按物種來源分組，重建個別物種的 metagenome-assembled genomes（MAGs）。基於組成特徵的方法利用 tetranucleotide frequency 和 GC 含量；基於覆蓋深度的方法利用同一物種 contigs 在多個樣本中的共變模式。MetaBAT2 和 CONCOCT 結合兩類特徵，DAS Tool 整合多個分箱工具的結果。MAG 品質以 CheckM 評估：completeness（基於 lineage-specific single-copy marker genes）> 90% 且 contamination < 5% 為高品質 MAG（Bowers et al., 2017, MIMAG 標準）。

統計分析框架
組成數據的統計分析需要特殊處理，因為相對豐度數據是 compositional data（各成分之和恆為定值）。Aitchison（1986）的對數比轉換（log-ratio transformation）是理論基礎；ALDEx2 使用 centered log-ratio（CLR）轉換加上貝氏估計來處理稀疏性。差異豐度分析的常用方法包括 DESeq2（negative binomial model）、ANCOM-BC（bias-corrected compositional analysis）和 MaAsLin2（multivariate linear model）。

長讀定序的新機遇
PacBio HiFi 和 Oxford Nanopore 在宏基因體學中的應用正在快速增長。長讀序列可以跨越重複區域，大幅改善組裝連續性和分箱準確度。HiFi reads 的 >99.9% 準確度使其適合直接進行 SNV 級別的 strain-level 分析。Nanopore 的即時定序能力適合現場快速檢測（如 MinION 用於疫情調查）。

功能宏基因體學前沿
宏轉錄體學（metatranscriptomics）揭示微生物群落的即時活性；宏蛋白質體學（metaproteomics）和宏代謝體學（metametabolomics）進一步連結基因潛力與實際功能。整合多體學數據的 genome-scale metabolic modeling（如 MICOM）可以預測群落層級的代謝交互作用和營養互利關係。

互動工具