跳至主要內容
1 · 第2學期生物統計推論統計

假說檢定

Hypothesis Testing

難度 2 · 基礎statistics想做成互動版

假說檢定的理論根源和現代爭議涉及 Neyman-Pearson 理論、Fisherian p 值和貝氏替代方案。

Neyman-Pearson 引理(1933)

對簡單 vs 簡單假說(H₀: θ=θ₀ vs H₁: θ=θ₁),likelihood ratio test 是 UMP(Uniformly Most Powerful)檢定。拒絕域 R = {x : L(θ₁|x)/L(θ₀|x) > k},其中 k 由 α 決定。推廣到複合假說時 UMP 不一定存在,需用 UMPU 或 GLR(generalized likelihood ratio)檢定。

Fisher vs Neyman-Pearson

兩個傳統常被混淆但哲學不同:

  • Fisher:p 值是「證據的連續度量」,不設固定 α,不提檢定力。
  • Neyman-Pearson:假說檢定是「長期頻率決策規則」,α 和 β 控制長期錯誤率。
    現代實踐混合兩者(報告 p 值 + 用 α 做決策),Gigerenzer(2004)稱之為「the null ritual」的混成體。

多重比較問題

進行 m 次檢定時,family-wise error rate (FWER) = 1 − (1−α)^m。Bonferroni 修正:α' = α/m,保守但簡單。Holm step-down 程序較不保守且同樣控制 FWER。Benjamini-Hochberg(1995)控制 FDR(false discovery rate)= E(FP/(FP+TP)),在基因體學中是標準做法。q-value(Storey 2003)提供每個假說的 FDR 估計。

再現性危機(Replication Crisis)

Ioannidis(2005, PLoS Med)「Why Most Published Research Findings Are False」論證:低 prior probability + 低 power + 多重比較 + publication bias → 大多數顯著結果為偽陽性。Open Science Collaboration(2015, Science)重複 100 個心理學研究,僅 36% 達到顯著重複。建議:(1) 預先註冊(pre-registration),(2) 報告效應量和信賴區間,(3) 使用 p < 0.005 作更嚴格門檻(Benjamin et al., 2018),(4) 貝氏因子(Bayes Factor)作為替代。

貝氏假說檢定

Bayes Factor BF₁₀ = P(data|H₁)/P(data|H₀),直接量化數據支持 H₁ 相對於 H₀ 的強度。Jeffreys 等級:BF > 3(中等證據),> 10(強證據),> 100(決定性)。BF 不依賴樣本量和停止規則(stopping rule),解決 p 值的許多批評。但需指定 H₁ 的先驗分布。

文獻參考:Neyman, J. & Pearson, E.S. (1933). Phil Trans A, 231, 289-337. / Benjamini, Y. & Hochberg, Y. (1995). JRSS B, 57, 289-300. / Ioannidis, J.P.A. (2005). PLoS Med, 2, e124.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

有寫過的文章