大1 · 第2學期生物統計推論統計

無母數統計

Nonparametric Statistics

難度 3 · 進階statistics

無母數方法的理論核心是排列分布與 rank-based inference，並與半母數模型和 bootstrap 建立深層聯繫。

排列檢定框架

Fisher-Pitman 排列檢定：在 H₀ 下所有 (n₁+n₂)! / (n₁!n₂!) 種分配等概率。檢定統計量可任意選擇——rank-based statistics 是一種選擇。排列 p-value 是精確的，不依賴漸近近似（Lehmann, 2006, Nonparametrics: Statistical Methods Based on Ranks）。

漸近相對效率（ARE）

Pitman ARE 衡量大樣本下兩統計量達到相同 power 所需樣本量之比。Wilcoxon vs t-test：ARE = 12σ²[∫f²(x)dx]²。常態下 = 3/π ≈ 0.955；logistic 下 = π²/9 ≈ 1.097；Cauchy 下 → ∞。Hodges-Lehmann（1956）最早系統性推導 ARE。

Linear Rank Statistics 的統一理論

Hájek 投影（Hájek, 1968）：任何 linear rank statistic S = Σ cᵢ a(Rᵢ) 的漸近分布由其投影 Ŝ = Σ hᵢ(Xᵢ) 決定，hᵢ 為 influence function。此理論統一了 Wilcoxon、log-rank、normal scores 等檢定的漸近行為。

Rank-based estimation

Hodges-Lehmann estimator Δ̂ = median{Yⱼ − Xᵢ}（所有 i,j pairs）是 location shift 的 R-estimator，等同 Wilcoxon 檢定的 point estimate。Confidence interval 由 Wilcoxon distribution 的分位數導出。

Bootstrap 與 Permutation 的關係

Permutation test 精確控制 Type I error（finite-sample validity）。Bootstrap 以重抽樣近似 sampling distribution。Parametric bootstrap vs nonparametric bootstrap：後者等同 empirical distribution 的 plug-in（Efron & Tibshirani, 1993, An Introduction to the Bootstrap）。BCa interval（bias-corrected and accelerated）修正 bootstrap CI 的偏差與偏態。

高維無母數方法

Multivariate rank tests：Puri & Sen（1971）推廣 linear rank statistics 到多變量情境。Energy distance（Székely & Rizzo, 2004）和 kernel-based tests（MMD, Gretton et al., 2012）檢驗高維分布差異，不需明確的排名。在 single-cell genomics 中以 Wilcoxon rank-sum test 作為 differential expression 的標準方法。

文獻參考：Lehmann, E.L. (2006). Nonparametrics: Statistical Methods Based on Ranks. Springer. / Efron, B. & Tibshirani, R.J. (1993). An Introduction to the Bootstrap. CRC Press. / Székely, G.J. & Rizzo, M.L. (2004). J Multivariate Anal, 88, 159-167.

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

假說檢定

生物統計 · 推論統計

難度 2 · 基礎