跳至主要內容
4 · 第2學期系統生物學多體學整合

多體學整合分析

Multi-Omics Integration

難度 5 · 研究systems-biologybioinformatics想做成互動版

多體學整合是精準醫學和系統生物學的方法論前沿,其核心挑戰是如何從異質、高維、不同尺度的數據中提取統一的生物學信號。

數學框架分類

Argelaguet et al.(Mol Syst Biol, 2018)將方法分為三類:

  1. Matrix Factorization:MOFA / MOFA+(多群體版本)將 M 個數據矩陣 Y_m (N×D_m) 分解為共享因子矩陣 Z (N×K) 和權重矩陣 W_m (K×D_m):Y_m ≈ Z · W_m^T + ε_m。稀疏先驗(automatic relevance determination)自動關閉不相關的 factor-view 組合。MOFA+ 擴展至多群體(如多個患者或多個時間點)。

  2. Network-Based:PARADIGM 用 factor graph representation 的 signaling pathway 做 belief propagation inference。iCluster+ 在 matrix factorization 中加入 pathway topology 正規化項。

  3. Deep Learning:Multi-omics Variational Autoencoder (MOVAE / MOGONET) 學習跨層的非線性潛在表示(latent representation)。Graph Convolutional Network + multi-view learning 可同時利用 feature 相似性和生物網路拓撲。

Causal Multi-Omics Integration

多體學數據天然具有因果層級(DNA → RNA → protein → metabolite → phenotype)。Mendelian Randomization (MR) 利用 genetic variant 作為 instrument variable 推斷 exposure(如蛋白質濃度)→ outcome(如疾病)的因果效應:

β_causal ≈ β_GY / β_GX

其中 β_GX 為 SNP-exposure association(pQTL),β_GY 為 SNP-outcome association(GWAS)。Multi-instrument MR(多個 SNP)+ MR-PRESSO 偵測離群值 + Steiger filtering 確認因果方向。

Time-Series Multi-Omics

在動態實驗(如藥物處理後 0h-72h 時間序列)中,不同體學層有不同的響應時間尺度:mRNA(分鐘-小時)先於蛋白質(小時-天)先於代謝物(取決於代謝途徑速率)。MEFISTO(MOFA+ 的時間序列擴展)用 Gaussian Process 在因子空間中建模時間動態,自動對齊不同體學層的時間偏移。

臨床 Multi-Omics

  • Cancer: CPTAC 整合 proteogenomics 揭示:~30% 的 genomic drivers(如 copy number amplification)沒有轉化為蛋白質表達增加(translational attenuation)。
  • Microbiome: 腸道菌群 16S/metagenomics + metabolomics 整合揭示 diet → microbiome → metabolite → host phenotype 的因果鏈。
  • Drug Response: GDSC / CCLE 整合基因體 + 轉錄組 + 藥物敏感性,用 elastic net 建構 biomarker 模型預測個體化治療響應。

文獻:Argelaguet et al. (2018) Mol Syst Biol 14:e8124 / Mertins et al. (2016) Nature 534:55-62 (CPTAC breast cancer) / Subramanian et al. (2020) Cell 182:1460-1473 (Human Microbiome Project 2).

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關