多體學整合是精準醫學和系統生物學的方法論前沿,其核心挑戰是如何從異質、高維、不同尺度的數據中提取統一的生物學信號。
數學框架分類
Argelaguet et al.(Mol Syst Biol, 2018)將方法分為三類:
Matrix Factorization:MOFA / MOFA+(多群體版本)將 M 個數據矩陣 Y_m (N×D_m) 分解為共享因子矩陣 Z (N×K) 和權重矩陣 W_m (K×D_m):Y_m ≈ Z · W_m^T + ε_m。稀疏先驗(automatic relevance determination)自動關閉不相關的 factor-view 組合。MOFA+ 擴展至多群體(如多個患者或多個時間點)。
Network-Based:PARADIGM 用 factor graph representation 的 signaling pathway 做 belief propagation inference。iCluster+ 在 matrix factorization 中加入 pathway topology 正規化項。
Deep Learning:Multi-omics Variational Autoencoder (MOVAE / MOGONET) 學習跨層的非線性潛在表示(latent representation)。Graph Convolutional Network + multi-view learning 可同時利用 feature 相似性和生物網路拓撲。
Causal Multi-Omics Integration
多體學數據天然具有因果層級(DNA → RNA → protein → metabolite → phenotype)。Mendelian Randomization (MR) 利用 genetic variant 作為 instrument variable 推斷 exposure(如蛋白質濃度)→ outcome(如疾病)的因果效應:
β_causal ≈ β_GY / β_GX
其中 β_GX 為 SNP-exposure association(pQTL),β_GY 為 SNP-outcome association(GWAS)。Multi-instrument MR(多個 SNP)+ MR-PRESSO 偵測離群值 + Steiger filtering 確認因果方向。
Time-Series Multi-Omics
在動態實驗(如藥物處理後 0h-72h 時間序列)中,不同體學層有不同的響應時間尺度:mRNA(分鐘-小時)先於蛋白質(小時-天)先於代謝物(取決於代謝途徑速率)。MEFISTO(MOFA+ 的時間序列擴展)用 Gaussian Process 在因子空間中建模時間動態,自動對齊不同體學層的時間偏移。
臨床 Multi-Omics
- Cancer: CPTAC 整合 proteogenomics 揭示:~30% 的 genomic drivers(如 copy number amplification)沒有轉化為蛋白質表達增加(translational attenuation)。
- Microbiome: 腸道菌群 16S/metagenomics + metabolomics 整合揭示 diet → microbiome → metabolite → host phenotype 的因果鏈。
- Drug Response: GDSC / CCLE 整合基因體 + 轉錄組 + 藥物敏感性,用 elastic net 建構 biomarker 模型預測個體化治療響應。
文獻:Argelaguet et al. (2018) Mol Syst Biol 14:e8124 / Mertins et al. (2016) Nature 534:55-62 (CPTAC breast cancer) / Subramanian et al. (2020) Cell 182:1460-1473 (Human Microbiome Project 2).
