大1 · 第2學期生物統計描述統計

集中趨勢

Measures of Central Tendency

難度 1 · 入門statistics

集中趨勢的數學基礎與統計推論緊密交織，涉及最佳化理論、穩健估計與漸近行為。

最佳化觀點

Mean 是使 Σ(xᵢ − c)² 最小的 c（L2 loss）；median 使 Σ|xᵢ − c| 最小（L1 loss）；mode 最大化 likelihood 在離散情境。Huber（1964, Ann Math Stat）將此框架推廣為 M-estimator：min Σρ(xᵢ − c)，其中 ρ 的選擇決定估計量的穩健性。

漸近理論

CLT 保證 √n(x̄ − μ) → N(0, σ²)。Sample median 的漸近分布：√n(med − μ̃) → N(0, 1/(4f(μ̃)²))，其中 f 為 PDF 在 median 處的值（Serfling, 1980, Approximation Theorems of Mathematical Statistics）。Mean 在常態下為 UMVUE（Lehmann-Scheffé theorem）。

穩健估計（Robust Estimation）

Trimmed mean：去掉上下各 α% 再取平均。常見 α = 5% 或 10%。breakdown point = α。
Winsorized mean：以百分位值替換極端值後取平均。
M-estimators（Huber, 1964）：ψ 函數定義影響函數（influence function）。Tukey's biweight 提供 breakdown point = 0.5 的 location estimator。
Hodges-Lehmann estimator：所有兩兩平均 (xᵢ + xⱼ)/2 的 median。ARE 相對 mean 為 0.955（常態下），且 breakdown point 較高。

加權與結構化平均

Meta-analysis 中的固定效果模型使用 inverse-variance weighted mean：θ̂ = Σ(wᵢθ̂ᵢ)/Σwᵢ，wᵢ = 1/Var(θ̂ᵢ)（DerSimonian & Laird, 1986, Control Clin Trials）。隨機效果模型加入 between-study variance τ²：wᵢ* = 1/(Var(θ̂ᵢ) + τ²)。REML estimation of τ² 比 DL method 更準確。

貝氏觀點

Posterior mean、median 和 mode 各為不同 loss function 的 Bayes estimator（squared, absolute, 0-1 loss）。共軛先驗下 posterior mean 是 prior mean 與 sample mean 的加權平均，權重比 = n/σ² : 1/τ² (DeGroot, 1970)。Credible interval 的解讀比 confidence interval 更直觀。

高維集中趨勢

多變量 mean 推廣為 centroid。Geometric median（spatial median）最小化 Σ‖xᵢ − c‖₂，由 Weiszfeld 演算法迭代求解，具高穩健性。Tukey median（halfspace depth 最大點）為 multivariate L1 median 的推廣（Tukey, 1975）。在單細胞分析中，以 robust location estimator 取代 mean 避免 dropout noise 的影響。

文獻參考：Huber, P.J. (1964). Ann Math Stat, 35, 73-101. / Serfling, R.J. (1980). Approximation Theorems of Mathematical Statistics. Wiley. / DerSimonian, R. & Laird, N. (1986). Control Clin Trials, 7, 177-188.

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

數據類型

生物統計 · 描述統計

難度 1 · 入門