統計檢定力的深入理論涉及非中央分布、適應性設計和模擬方法。
非中央 t 分布與 power 函數
在 H₁: μ = μ₀ + δ 下,t 統計量服從非中央 t 分布 t(df, λ),非中央參數 λ = δ/(σ/√n)。Power = P(t > t_critical | λ) = 1 − CDF_{t(df,λ)}(t_critical)。power curve(power vs n 或 power vs δ)呈 S 型。
精確 power vs 近似 power
- 正態近似:大樣本時 power ≈ Φ(|δ|/(σ/√n) − z_α/2)。
- 精確計算需非中央 t (t-test)、非中央 F (ANOVA)、非中央 χ² 分布。
- 存活分析:Schoenfeld(1983)公式 d = (z_α/2 + z_β)² / (ln(HR))²(d = 所需事件數),事件數比總 n 更關鍵。Freedman(1982)和 Lakatos(1988)方法考慮 accrual rate 和 dropout。
模擬法 power 分析
當沒有閉合公式時(如 mixed-effects model、mediation analysis、missing data),以 Monte Carlo 模擬估計 power:
- 在 H₁ 假設下重複生成 B ≥ 1000 個數據集。
- 對每個數據集執行分析並記錄是否 p < α。
- Power ≈ 拒絕 H₀ 的比例。
simr R package(Green & MacLeod, 2016)專門用於 mixed model 的 simulation-based power。
適應性設計(Adaptive Design)
- Group sequential design(O'Brien-Fleming, Pocock 邊界):中期分析可提前停止(futility 或 efficacy),但需調整 α 花費函數(Lan-DeMets α-spending function)以控制整體 type I error。
- Sample size re-estimation(SSR):中期根據觀察到的變異數(blinded 或 unblinded)調整 n。Chen et al.(2004)的方法保持 type I error。
- 平台試驗(Platform Trial):多臂多階段,新治療臂可加入、無效臂可退出。RECOVERY 試驗(COVID-19)是成功案例。
Post-hoc power 的陷阱
觀察到的 power(observed power)= 以觀察到的效應量和 n 計算的 power。Hoenig & Heisey(2001)證明這是多餘的——observed power 是 p 值的單調函數,不提供額外資訊。不應在論文中報告 post-hoc power。
文獻參考:Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences, 2nd ed. / Schoenfeld, D.A. (1983). Biometrics, 39, 499-503. / Hoenig, J.M. & Heisey, D.M. (2001). Am Stat, 55, 19-24.
