路徑分析的統計推論需要處理基因集之間的重疊、基因間的相關性、以及方向性資訊的整合。
ORA 的統計基礎
超幾何檢驗的虛無假設是:差異基因列表中屬於某路徑的基因數服從超幾何分布 X ~ Hypergeometric(N, K, n),其中 N = 背景基因數,K = 路徑中的基因數,n = 差異基因數。p-value = P(X ≥ x)。此檢驗假設基因是獨立的,但實際上基因間存在表達相關性,導致 p-value 偏樂觀。
GSEA 的理論框架
GSEA 的 enrichment score 本質上是 weighted Kolmogorov-Smirnov-like statistic。原始實現中的基因集排列(gene set permutation)保持基因間的相關結構但可能在小樣本下 power 不足;表型排列(phenotype permutation)在有足夠重複時統計性質更好。fgsea(Korotkevich et al., 2021)使用解析近似極大地加速 p-value 計算。
Network-based 方法
將基因間的交互作用(PPI network、co-expression network)納入考量:
- SPIA(Signaling Pathway Impact Analysis):結合 ORA 的統計顯著性和路徑拓撲資訊(上下游關係、活化/抑制)計算路徑 perturbation score
- EnrichmentMap(Merico et al., 2010):以基因集之間的重疊程度建構網路,用 community detection 將冗餘的基因集聚類為 themes
- GSVA(Gene Set Variation Analysis):為每個樣本計算每個基因集的 enrichment score,轉化為 pathway-level expression matrix,可用於後續的差異分析、survival analysis 等
方向性與因果性
傳統 ORA 和 GSEA 不區分基因的上調或下調。Causal reasoning approaches(如 IPA 的 Upstream Regulator Analysis)用路徑中的因果關係(A 活化 B、C 抑制 D)推斷上游調控因子的活化/抑制狀態。NicheNet 整合配體-受體對和下游信號路徑,推斷細胞通訊中的因果基因調控。
單細胞層級的路徑分析
在 scRNA-seq 中,傳統 GSEA 不直接適用(per-cell 數據太稀疏)。AUCell 計算每個細胞中基因集的 AUC score(排名中基因集成員的分佈)。decoupleR(Badia-i-Mompel et al., 2022)提供統一框架,用 multivariate linear model(MLM)或 weighted sum 方法估計每個細胞中 TF 活性或 pathway 活性。
