集中趨勢的數學基礎與統計推論緊密交織,涉及最佳化理論、穩健估計與漸近行為。
最佳化觀點
Mean 是使 Σ(xᵢ − c)² 最小的 c(L2 loss);median 使 Σ|xᵢ − c| 最小(L1 loss);mode 最大化 likelihood 在離散情境。Huber(1964, Ann Math Stat)將此框架推廣為 M-estimator:min Σρ(xᵢ − c),其中 ρ 的選擇決定估計量的穩健性。
漸近理論
CLT 保證 √n(x̄ − μ) → N(0, σ²)。Sample median 的漸近分布:√n(med − μ̃) → N(0, 1/(4f(μ̃)²)),其中 f 為 PDF 在 median 處的值(Serfling, 1980, Approximation Theorems of Mathematical Statistics)。Mean 在常態下為 UMVUE(Lehmann-Scheffé theorem)。
穩健估計(Robust Estimation)
- Trimmed mean:去掉上下各 α% 再取平均。常見 α = 5% 或 10%。breakdown point = α。
- Winsorized mean:以百分位值替換極端值後取平均。
- M-estimators(Huber, 1964):ψ 函數定義影響函數(influence function)。Tukey's biweight 提供 breakdown point = 0.5 的 location estimator。
- Hodges-Lehmann estimator:所有兩兩平均 (xᵢ + xⱼ)/2 的 median。ARE 相對 mean 為 0.955(常態下),且 breakdown point 較高。
加權與結構化平均
Meta-analysis 中的固定效果模型使用 inverse-variance weighted mean:θ̂ = Σ(wᵢθ̂ᵢ)/Σwᵢ,wᵢ = 1/Var(θ̂ᵢ)(DerSimonian & Laird, 1986, Control Clin Trials)。隨機效果模型加入 between-study variance τ²:wᵢ* = 1/(Var(θ̂ᵢ) + τ²)。REML estimation of τ² 比 DL method 更準確。
貝氏觀點
Posterior mean、median 和 mode 各為不同 loss function 的 Bayes estimator(squared, absolute, 0-1 loss)。共軛先驗下 posterior mean 是 prior mean 與 sample mean 的加權平均,權重比 = n/σ² : 1/τ² (DeGroot, 1970)。Credible interval 的解讀比 confidence interval 更直觀。
高維集中趨勢
多變量 mean 推廣為 centroid。Geometric median(spatial median)最小化 Σ‖xᵢ − c‖₂,由 Weiszfeld 演算法迭代求解,具高穩健性。Tukey median(halfspace depth 最大點)為 multivariate L1 median 的推廣(Tukey, 1975)。在單細胞分析中,以 robust location estimator 取代 mean 避免 dropout noise 的影響。
文獻參考:Huber, P.J. (1964). Ann Math Stat, 35, 73-101. / Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Wiley. / DerSimonian, R. & Laird, N. (1986). Control Clin Trials, 7, 177-188.
