跳至主要內容
4 · 第1學期生物資訊學基因體分析

宏基因體學

Metagenomics

難度 4 · 專業bioinformaticsmicrobiology想做成互動版

宏基因體學的理論基礎建立在培養非依賴性(culture-independent)方法之上。Pace et al.(1986)率先使用環境 16S rRNA 基因選殖揭示了未培養微生物的巨大多樣性;Handelsman et al.(1998)正式提出 metagenomics 一詞。Venter et al.(2004)的 Sargasso Sea 全基因體鳥槍定序是里程碑式的研究,從 200 L 海水中鑑定出 148 個新的細菌門系和 120 萬個新基因。

組裝與分箱
基因體組裝面臨獨特挑戰:不均勻的覆蓋深度(豐度差異可達 10^5 倍)、種間共享的保守區域造成嵌合組裝(chimeric contigs)、以及近緣物種的微小差異。MEGAHIT 使用 succinct de Bruijn graph 降低記憶體需求;metaSPAdes 在多個 k-mer 值下組裝並整合結果。

分箱(Binning)是將組裝後的 contigs 按物種來源分組,重建個別物種的 metagenome-assembled genomes(MAGs)。基於組成特徵的方法利用 tetranucleotide frequency 和 GC 含量;基於覆蓋深度的方法利用同一物種 contigs 在多個樣本中的共變模式。MetaBAT2 和 CONCOCT 結合兩類特徵,DAS Tool 整合多個分箱工具的結果。MAG 品質以 CheckM 評估:completeness(基於 lineage-specific single-copy marker genes)> 90% 且 contamination < 5% 為高品質 MAG(Bowers et al., 2017, MIMAG 標準)。

統計分析框架
組成數據的統計分析需要特殊處理,因為相對豐度數據是 compositional data(各成分之和恆為定值)。Aitchison(1986)的對數比轉換(log-ratio transformation)是理論基礎;ALDEx2 使用 centered log-ratio(CLR)轉換加上貝氏估計來處理稀疏性。差異豐度分析的常用方法包括 DESeq2(negative binomial model)、ANCOM-BC(bias-corrected compositional analysis)和 MaAsLin2(multivariate linear model)。

長讀定序的新機遇
PacBio HiFi 和 Oxford Nanopore 在宏基因體學中的應用正在快速增長。長讀序列可以跨越重複區域,大幅改善組裝連續性和分箱準確度。HiFi reads 的 >99.9% 準確度使其適合直接進行 SNV 級別的 strain-level 分析。Nanopore 的即時定序能力適合現場快速檢測(如 MinION 用於疫情調查)。

功能宏基因體學前沿
轉錄體學(metatranscriptomics)揭示微生物群落的即時活性;宏蛋白質體學(metaproteomics)和宏代謝體學(metametabolomics)進一步連結基因潛力與實際功能。整合多體學數據的 genome-scale metabolic modeling(如 MICOM)可以預測群落層級的代謝交互作用和營養互利關係。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關