跳至主要內容
4 · 第1學期生物資訊學網路分析

路徑分析

Pathway Analysis

難度 3 · 進階bioinformatics想做成互動版

路徑分析的統計推論需要處理基因集之間的重疊、基因間的相關性、以及方向性資訊的整合。

ORA 的統計基礎
超幾何檢驗的虛無假設是:差異基因列表中屬於某路徑的基因數服從超幾何分布 X ~ Hypergeometric(N, K, n),其中 N = 背景基因數,K = 路徑中的基因數,n = 差異基因數。p-value = P(X ≥ x)。此檢驗假設基因是獨立的,但實際上基因間存在表達相關性,導致 p-value 偏樂觀。

GSEA 的理論框架
GSEA 的 enrichment score 本質上是 weighted Kolmogorov-Smirnov-like statistic。原始實現中的基因集排列(gene set permutation)保持基因間的相關結構但可能在小樣本下 power 不足;表型排列(phenotype permutation)在有足夠重複時統計性質更好。fgsea(Korotkevich et al., 2021)使用解析近似極大地加速 p-value 計算。

Network-based 方法
將基因間的交互作用(PPI network、co-expression network)納入考量:

  • SPIA(Signaling Pathway Impact Analysis):結合 ORA 的統計顯著性和路徑拓撲資訊(上下游關係、活化/抑制)計算路徑 perturbation score
  • EnrichmentMap(Merico et al., 2010):以基因集之間的重疊程度建構網路,用 community detection 將冗餘的基因集聚類為 themes
  • GSVA(Gene Set Variation Analysis):為每個樣本計算每個基因集的 enrichment score,轉化為 pathway-level expression matrix,可用於後續的差異分析、survival analysis 等

方向性與因果性
傳統 ORA 和 GSEA 不區分基因的上調或下調。Causal reasoning approaches(如 IPA 的 Upstream Regulator Analysis)用路徑中的因果關係(A 活化 B、C 抑制 D)推斷上游調控因子的活化/抑制狀態。NicheNet 整合配體-受體對和下游信號路徑,推斷細胞通訊中的因果基因調控。

單細胞層級的路徑分析
在 scRNA-seq 中,傳統 GSEA 不直接適用(per-cell 數據太稀疏)。AUCell 計算每個細胞中基因集的 AUC score(排名中基因集成員的分佈)。decoupleR(Badia-i-Mompel et al., 2022)提供統一框架,用 multivariate linear model(MLM)或 weighted sum 方法估計每個細胞中 TF 活性或 pathway 活性。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關