離散度量的理論基礎涉及不偏性、充分統計量和高維擴展。
充分統計量與 Fisher-Neyman 定理
對常態分布 N(μ, σ²),(x̄, s²) 為 (μ, σ²) 的充分統計量(sufficient statistics)——所有關於母群參數的資訊都包含在這組統計量中。Rao-Blackwell 定理保證以充分統計量為條件的估計量,其方差不大於原始估計量。
方差的分割(Variance Decomposition)
全方差定律(Law of Total Variance):Var(Y) = E[Var(Y|X)] + Var[E(Y|X)]。分為組內方差和組間方差,是 ANOVA 和混合效應模型的理論基礎。在分層抽樣和集群分析中,ICC(Intraclass Correlation Coefficient)= σ²_between / (σ²_between + σ²_within) 量化組間差異佔總變異的比例。
Bootstrap 方差估計
Efron(1979)提出的 bootstrap 方法:從樣本有放回抽樣 B 次(通常 B ≥ 1000),計算每次的統計量,以其 empirical distribution 估計標準誤和信賴區間。不需分布假設,適用於複雜統計量(如 median、ratio、correlation)。BCa(Bias-Corrected and Accelerated)bootstrap 修正偏差和偏態,比 percentile method 更準確。
多變量離散度
在 p 維空間,離散度以共變異矩陣 Σ(p×p 正定矩陣)描述。行列式 |Σ|(generalized variance)量化整體離散程度。Mahalanobis 距離 D² = (x−μ)ᵀΣ⁻¹(x−μ) 考慮了變數間的相關性,是多變量 outlier 偵測的基礎。高維情境(p > n)中,樣本共變異矩陣奇異,需 shrinkage 估計(Ledoit & Wolf, 2004)或稀疏估計(graphical LASSO)。
測量不確定度(Measurement Uncertainty)
GUM(Guide to the Expression of Uncertainty in Measurement, ISO/IEC 98-3)框架將不確定度分為 Type A(統計方法估計)和 Type B(非統計方法,如儀器規格書)。合成標準不確定度用誤差傳播公式:u_c² = Σ(∂f/∂xᵢ)²·u(xᵢ)² + 2ΣΣ(∂f/∂xᵢ)(∂f/∂xⱼ)·u(xᵢ,xⱼ)。
文獻參考:Efron, B. (1979). Ann Stat, 7, 1-26. / Ledoit, O. & Wolf, M. (2004). J Multivariate Anal, 88, 365-411.
