跳至主要內容
1 · 第2學期生物統計實驗設計

統計檢定力

Statistical Power Analysis

難度 3 · 進階statistics

統計檢定力的深入理論涉及非中央分布、適應性設計和模擬方法。

非中央 t 分布與 power 函數

在 H₁: μ = μ₀ + δ 下,t 統計量服從非中央 t 分布 t(df, λ),非中央參數 λ = δ/(σ/√n)。Power = P(t > t_critical | λ) = 1 − CDF_{t(df,λ)}(t_critical)。power curve(power vs n 或 power vs δ)呈 S 型。

精確 power vs 近似 power

  • 正態近似:大樣本時 power ≈ Φ(|δ|/(σ/√n) − z_α/2)。
  • 精確計算需非中央 t (t-test)、非中央 F (ANOVA)、非中央 χ² 分布。
  • 存活分析:Schoenfeld(1983)公式 d = (z_α/2 + z_β)² / (ln(HR))²(d = 所需事件數),事件數比總 n 更關鍵。Freedman(1982)和 Lakatos(1988)方法考慮 accrual rate 和 dropout。

模擬法 power 分析

當沒有閉合公式時(如 mixed-effects model、mediation analysis、missing data),以 Monte Carlo 模擬估計 power:

  1. 在 H₁ 假設下重複生成 B ≥ 1000 個數據集。
  2. 對每個數據集執行分析並記錄是否 p < α。
  3. Power ≈ 拒絕 H₀ 的比例。
    simr R package(Green & MacLeod, 2016)專門用於 mixed model 的 simulation-based power。

適應性設計(Adaptive Design)

  • Group sequential design(O'Brien-Fleming, Pocock 邊界):中期分析可提前停止(futility 或 efficacy),但需調整 α 花費函數(Lan-DeMets α-spending function)以控制整體 type I error。
  • Sample size re-estimation(SSR):中期根據觀察到的變異數(blinded 或 unblinded)調整 n。Chen et al.(2004)的方法保持 type I error。
  • 平台試驗(Platform Trial):多臂多階段,新治療臂可加入、無效臂可退出。RECOVERY 試驗(COVID-19)是成功案例。

Post-hoc power 的陷阱

觀察到的 power(observed power)= 以觀察到的效應量和 n 計算的 power。Hoenig & Heisey(2001)證明這是多餘的——observed power 是 p 值的單調函數,不提供額外資訊。不應在論文中報告 post-hoc power。

文獻參考:Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences, 2nd ed. / Schoenfeld, D.A. (1983). Biometrics, 39, 499-503. / Hoenig, J.M. & Heisey, D.M. (2001). Am Stat, 55, 19-24.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關