生物資訊學的統計推論框架涵蓋頻率學派、貝氏學派和資訊理論方法,核心挑戰是在高維度(p >> n)和多重比較的環境下維持推論的有效性。
高維數據的統計挑戰
基因表現數據的典型情境是 p(基因數,~20,000)遠大於 n(樣本數,通常 3-20)。在這種設定下,傳統的多變量方法會失效(sample covariance matrix 是 singular 的)。解決策略包括:
- Regularization:LASSO(L1)和 Ridge(L2)迴歸在代價函數中加入懲罰項,ELASTIC NET 結合兩者
- Shrinkage estimation:DESeq2 和 edgeR 的 dispersion shrinkage 是典型範例,將不穩定的基因特異估計向穩定的全域趨勢收縮
- 降維:PCA、factor analysis、sparse PCA 提取主要變異模式
Empirical Bayes 框架
Efron(2010)的大規模推論理論為生物資訊學的多重檢驗提供了統一框架。Local false discovery rate (lfdr) 估計每個假設為真正虛無的後驗機率。limma 的 empirical Bayes moderated t-test(Smyth, 2004)是經典實現:假設每個基因的真實變異數 σ²_g 服從 scaled inverse chi-squared 先驗,用所有基因的變異數資訊估計超參數(prior degrees of freedom d₀ 和 prior variance s²₀),然後計算後驗估計 s̃²_g = (d₀s²₀ + d_gs²_g)/(d₀ + d_g),穩定低重複實驗的推論。
多重檢驗理論
Benjamini-Hochberg(1995)的 FDR 控制在獨立或正相關檢驗下有理論保證。Storey(2003)的 q-value 方法估計 π₀(真正虛無假設的比例)來改善 FDR 估計的效率。Independent Hypothesis Weighting(IHW, Ignatiadis et al., 2016)利用 covariate(如基因的平均表現量或 GC 含量)對 p-values 進行加權分組,在保持 FDR 控制的同時提升偵測力。
Compositional data analysis
微生物體學的相對豐度數據是 compositional data(各成分之和為常數),直接使用 Pearson correlation 或 parametric tests 會產生 spurious associations。Aitchison(1986)的 log-ratio methodology 是理論解決方案:centered log-ratio(CLR)轉換 x_i → log(x_i / g(x))。ANCOM-BC 和 ALDEx2 基於此框架進行差異豐度分析。
因果推論
Mendelian randomization(MR)利用遺傳變異作為工具變量(instrumental variable),在觀察性數據中推斷因果關係。Two-sample MR 使用 GWAS summary statistics,IVW(inverse variance weighted)方法是基本估計器。MR-Egger 允許 directional pleiotropy,CAUSE(Morrison et al., 2020)用 latent variable model 區分因果效應和 correlated pleiotropy。
