大1 · 第2學期生物統計推論統計

假說檢定

Hypothesis Testing

難度 2 · 基礎statistics想做成互動版

假說檢定的理論根源和現代爭議涉及 Neyman-Pearson 理論、Fisherian p 值和貝氏替代方案。

Neyman-Pearson 引理（1933）

對簡單 vs 簡單假說（H₀: θ=θ₀ vs H₁: θ=θ₁），likelihood ratio test 是 UMP（Uniformly Most Powerful）檢定。拒絕域 R = {x : L(θ₁|x)/L(θ₀|x) > k}，其中 k 由 α 決定。推廣到複合假說時 UMP 不一定存在，需用 UMPU 或 GLR（generalized likelihood ratio）檢定。

Fisher vs Neyman-Pearson

兩個傳統常被混淆但哲學不同：

Fisher：p 值是「證據的連續度量」，不設固定 α，不提檢定力。
Neyman-Pearson：假說檢定是「長期頻率決策規則」，α 和 β 控制長期錯誤率。
現代實踐混合兩者（報告 p 值 + 用 α 做決策），Gigerenzer（2004）稱之為「the null ritual」的混成體。

多重比較問題

進行 m 次檢定時，family-wise error rate (FWER) = 1 − (1−α)^m。Bonferroni 修正：α' = α/m，保守但簡單。Holm step-down 程序較不保守且同樣控制 FWER。Benjamini-Hochberg（1995）控制 FDR（false discovery rate）= E(FP/(FP+TP))，在基因體學中是標準做法。q-value（Storey 2003）提供每個假說的 FDR 估計。

再現性危機（Replication Crisis）

Ioannidis（2005, PLoS Med）「Why Most Published Research Findings Are False」論證：低 prior probability + 低 power + 多重比較 + publication bias → 大多數顯著結果為偽陽性。Open Science Collaboration（2015, Science）重複 100 個心理學研究，僅 36% 達到顯著重複。建議：(1) 預先註冊（pre-registration），(2) 報告效應量和信賴區間，(3) 使用 p < 0.005 作更嚴格門檻（Benjamin et al., 2018），(4) 貝氏因子（Bayes Factor）作為替代。

貝氏假說檢定

Bayes Factor BF₁₀ = P(data|H₁)/P(data|H₀)，直接量化數據支持 H₁ 相對於 H₀ 的強度。Jeffreys 等級：BF > 3（中等證據），> 10（強證據），> 100（決定性）。BF 不依賴樣本量和停止規則（stopping rule），解決 p 值的許多批評。但需指定 H₁ 的先驗分布。

文獻參考：Neyman, J. & Pearson, E.S. (1933). Phil Trans A, 231, 289-337. / Benjamini, Y. & Hochberg, Y. (1995). JRSS B, 57, 289-300. / Ioannidis, J.P.A. (2005). PLoS Med, 2, e124.

互動工具