無母數方法的理論核心是排列分布與 rank-based inference,並與半母數模型和 bootstrap 建立深層聯繫。
排列檢定框架
Fisher-Pitman 排列檢定:在 H₀ 下所有 (n₁+n₂)! / (n₁!n₂!) 種分配等概率。檢定統計量可任意選擇——rank-based statistics 是一種選擇。排列 p-value 是精確的,不依賴漸近近似(Lehmann, 2006, Nonparametrics: Statistical Methods Based on Ranks)。
漸近相對效率(ARE)
Pitman ARE 衡量大樣本下兩統計量達到相同 power 所需樣本量之比。Wilcoxon vs t-test:ARE = 12σ²[∫f²(x)dx]²。常態下 = 3/π ≈ 0.955;logistic 下 = π²/9 ≈ 1.097;Cauchy 下 → ∞。Hodges-Lehmann(1956)最早系統性推導 ARE。
Linear Rank Statistics 的統一理論
Hájek 投影(Hájek, 1968):任何 linear rank statistic S = Σ cᵢ a(Rᵢ) 的漸近分布由其投影 Ŝ = Σ hᵢ(Xᵢ) 決定,hᵢ 為 influence function。此理論統一了 Wilcoxon、log-rank、normal scores 等檢定的漸近行為。
Rank-based estimation
Hodges-Lehmann estimator Δ̂ = median{Yⱼ − Xᵢ}(所有 i,j pairs)是 location shift 的 R-estimator,等同 Wilcoxon 檢定的 point estimate。Confidence interval 由 Wilcoxon distribution 的分位數導出。
Bootstrap 與 Permutation 的關係
Permutation test 精確控制 Type I error(finite-sample validity)。Bootstrap 以重抽樣近似 sampling distribution。Parametric bootstrap vs nonparametric bootstrap:後者等同 empirical distribution 的 plug-in(Efron & Tibshirani, 1993, An Introduction to the Bootstrap)。BCa interval(bias-corrected and accelerated)修正 bootstrap CI 的偏差與偏態。
高維無母數方法
Multivariate rank tests:Puri & Sen(1971)推廣 linear rank statistics 到多變量情境。Energy distance(Székely & Rizzo, 2004)和 kernel-based tests(MMD, Gretton et al., 2012)檢驗高維分布差異,不需明確的排名。在 single-cell genomics 中以 Wilcoxon rank-sum test 作為 differential expression 的標準方法。
文獻參考:Lehmann, E.L. (2006). Nonparametrics: Statistical Methods Based on Ranks. Springer. / Efron, B. & Tibshirani, R.J. (1993). An Introduction to the Bootstrap. CRC Press. / Székely, G.J. & Rizzo, M.L. (2004). J Multivariate Anal, 88, 159-167.
