大4 · 第2學期系統生物學多體學整合

多體學整合分析

Multi-Omics Integration

難度 5 · 研究systems-biologybioinformatics想做成互動版

多體學整合是精準醫學和系統生物學的方法論前沿，其核心挑戰是如何從異質、高維、不同尺度的數據中提取統一的生物學信號。

數學框架分類

Argelaguet et al.（Mol Syst Biol, 2018）將方法分為三類：

Matrix Factorization：MOFA / MOFA+（多群體版本）將 M 個數據矩陣 Y_m (N×D_m) 分解為共享因子矩陣 Z (N×K) 和權重矩陣 W_m (K×D_m)：Y_m ≈ Z · W_m^T + ε_m。稀疏先驗（automatic relevance determination）自動關閉不相關的 factor-view 組合。MOFA+ 擴展至多群體（如多個患者或多個時間點）。
Network-Based：PARADIGM 用 factor graph representation 的 signaling pathway 做 belief propagation inference。iCluster+ 在 matrix factorization 中加入 pathway topology 正規化項。
Deep Learning：Multi-omics Variational Autoencoder (MOVAE / MOGONET) 學習跨層的非線性潛在表示（latent representation）。Graph Convolutional Network + multi-view learning 可同時利用 feature 相似性和生物網路拓撲。

Causal Multi-Omics Integration

多體學數據天然具有因果層級（DNA → RNA → protein → metabolite → phenotype）。Mendelian Randomization (MR) 利用 genetic variant 作為 instrument variable 推斷 exposure（如蛋白質濃度）→ outcome（如疾病）的因果效應：

β_causal ≈ β_GY / β_GX

其中 β_GX 為 SNP-exposure association（pQTL），β_GY 為 SNP-outcome association（GWAS）。Multi-instrument MR（多個 SNP）+ MR-PRESSO 偵測離群值 + Steiger filtering 確認因果方向。

Time-Series Multi-Omics

在動態實驗（如藥物處理後 0h-72h 時間序列）中，不同體學層有不同的響應時間尺度：mRNA（分鐘-小時）先於蛋白質（小時-天）先於代謝物（取決於代謝途徑速率）。MEFISTO（MOFA+ 的時間序列擴展）用 Gaussian Process 在因子空間中建模時間動態，自動對齊不同體學層的時間偏移。

臨床 Multi-Omics

Cancer: CPTAC 整合 proteogenomics 揭示：~30% 的 genomic drivers（如 copy number amplification）沒有轉化為蛋白質表達增加（translational attenuation）。
Microbiome: 腸道菌群 16S/metagenomics + metabolomics 整合揭示 diet → microbiome → metabolite → host phenotype 的因果鏈。
Drug Response: GDSC / CCLE 整合基因體 + 轉錄組 + 藥物敏感性，用 elastic net 建構 biomarker 模型預測個體化治療響應。

文獻：Argelaguet et al. (2018) Mol Syst Biol 14:e8124 / Mertins et al. (2016) Nature 534:55-62 (CPTAC breast cancer) / Subramanian et al. (2020) Cell 182:1460-1473 (Human Microbiome Project 2).

互動工具