假說檢定的理論根源和現代爭議涉及 Neyman-Pearson 理論、Fisherian p 值和貝氏替代方案。
Neyman-Pearson 引理(1933)
對簡單 vs 簡單假說(H₀: θ=θ₀ vs H₁: θ=θ₁),likelihood ratio test 是 UMP(Uniformly Most Powerful)檢定。拒絕域 R = {x : L(θ₁|x)/L(θ₀|x) > k},其中 k 由 α 決定。推廣到複合假說時 UMP 不一定存在,需用 UMPU 或 GLR(generalized likelihood ratio)檢定。
Fisher vs Neyman-Pearson
兩個傳統常被混淆但哲學不同:
- Fisher:p 值是「證據的連續度量」,不設固定 α,不提檢定力。
- Neyman-Pearson:假說檢定是「長期頻率決策規則」,α 和 β 控制長期錯誤率。
現代實踐混合兩者(報告 p 值 + 用 α 做決策),Gigerenzer(2004)稱之為「the null ritual」的混成體。
多重比較問題
進行 m 次檢定時,family-wise error rate (FWER) = 1 − (1−α)^m。Bonferroni 修正:α' = α/m,保守但簡單。Holm step-down 程序較不保守且同樣控制 FWER。Benjamini-Hochberg(1995)控制 FDR(false discovery rate)= E(FP/(FP+TP)),在基因體學中是標準做法。q-value(Storey 2003)提供每個假說的 FDR 估計。
再現性危機(Replication Crisis)
Ioannidis(2005, PLoS Med)「Why Most Published Research Findings Are False」論證:低 prior probability + 低 power + 多重比較 + publication bias → 大多數顯著結果為偽陽性。Open Science Collaboration(2015, Science)重複 100 個心理學研究,僅 36% 達到顯著重複。建議:(1) 預先註冊(pre-registration),(2) 報告效應量和信賴區間,(3) 使用 p < 0.005 作更嚴格門檻(Benjamin et al., 2018),(4) 貝氏因子(Bayes Factor)作為替代。
貝氏假說檢定
Bayes Factor BF₁₀ = P(data|H₁)/P(data|H₀),直接量化數據支持 H₁ 相對於 H₀ 的強度。Jeffreys 等級:BF > 3(中等證據),> 10(強證據),> 100(決定性)。BF 不依賴樣本量和停止規則(stopping rule),解決 p 值的許多批評。但需指定 H₁ 的先驗分布。
文獻參考:Neyman, J. & Pearson, E.S. (1933). Phil Trans A, 231, 289-337. / Benjamini, Y. & Hochberg, Y. (1995). JRSS B, 57, 289-300. / Ioannidis, J.P.A. (2005). PLoS Med, 2, e124.
