大4 · 第1學期生物資訊學網路分析

統計模型

Statistical Models in Bioinformatics

難度 4 · 專業bioinformaticsstatistics

生物資訊學的統計推論框架涵蓋頻率學派、貝氏學派和資訊理論方法，核心挑戰是在高維度（p >> n）和多重比較的環境下維持推論的有效性。

高維數據的統計挑戰
基因表現數據的典型情境是 p（基因數，~20,000）遠大於 n（樣本數，通常 3-20）。在這種設定下，傳統的多變量方法會失效（sample covariance matrix 是 singular 的）。解決策略包括：

Regularization：LASSO（L1）和 Ridge（L2）迴歸在代價函數中加入懲罰項，ELASTIC NET 結合兩者
Shrinkage estimation：DESeq2 和 edgeR 的 dispersion shrinkage 是典型範例，將不穩定的基因特異估計向穩定的全域趨勢收縮
降維：PCA、factor analysis、sparse PCA 提取主要變異模式

Empirical Bayes 框架
Efron（2010）的大規模推論理論為生物資訊學的多重檢驗提供了統一框架。Local false discovery rate (lfdr) 估計每個假設為真正虛無的後驗機率。limma 的 empirical Bayes moderated t-test（Smyth, 2004）是經典實現：假設每個基因的真實變異數 σ²_g 服從 scaled inverse chi-squared 先驗，用所有基因的變異數資訊估計超參數（prior degrees of freedom d₀ 和 prior variance s²₀），然後計算後驗估計 s̃²_g = (d₀s²₀ + d_gs²_g)/(d₀ + d_g)，穩定低重複實驗的推論。

多重檢驗理論
Benjamini-Hochberg（1995）的 FDR 控制在獨立或正相關檢驗下有理論保證。Storey（2003）的 q-value 方法估計 π₀（真正虛無假設的比例）來改善 FDR 估計的效率。Independent Hypothesis Weighting（IHW, Ignatiadis et al., 2016）利用 covariate（如基因的平均表現量或 GC 含量）對 p-values 進行加權分組，在保持 FDR 控制的同時提升偵測力。

Compositional data analysis
微生物體學的相對豐度數據是 compositional data（各成分之和為常數），直接使用 Pearson correlation 或 parametric tests 會產生 spurious associations。Aitchison（1986）的 log-ratio methodology 是理論解決方案：centered log-ratio（CLR）轉換 x_i → log(x_i / g(x))。ANCOM-BC 和 ALDEx2 基於此框架進行差異豐度分析。

因果推論
Mendelian randomization（MR）利用遺傳變異作為工具變量（instrumental variable），在觀察性數據中推斷因果關係。Two-sample MR 使用 GWAS summary statistics，IVW（inverse variance weighted）方法是基本估計器。MR-Egger 允許 directional pleiotropy，CAUSE（Morrison et al., 2020）用 latent variable model 區分因果效應和 correlated pleiotropy。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

線性回歸

生物統計 · 回歸分析

難度 2 · 基礎

常見分布

生物統計 · 描述統計

難度 2 · 基礎