分布理論的進階主題涵蓋指數族、混合模型和漸近理論。
指數族(Exponential Family)
大多數常用分布可寫為 f(x|θ) = h(x)·exp(η(θ)·T(x) − A(θ)) 的形式。常態、二項、泊松、Gamma、Beta 均屬指數族。GLM(Generalized Linear Models, Nelder & Wedderburn, 1972)統一了不同分布下的回歸分析:g(E(Y)) = Xβ,其中 g 為 link function。常態→identity link(線性回歸)、二項→logit link(邏輯回歸)、泊松→log link(泊松回歸)。
混合分布(Mixture Models)
當數據來自多個子群體時,混合分布 f(x) = Σπₖfₖ(x|θₖ) 更合適。EM 演算法(Dempster et al., 1977)迭代 E-step(計算隸屬機率)和 M-step(更新參數)直到收斂。BIC 或 ICL 選擇成分數 K。應用:flow cytometry 的細胞群體分群、scRNA-seq 細胞類型識別。
中央極限定理的擴展
經典 CLT 要求 iid 和有限方差。Lindeberg-Feller CLT 放寬到獨立但不同分布的情況。對於重尾分布(如 Cauchy),CLT 不成立——此時 stable distributions 取代常態分布。Berry-Esseen 定理提供 CLT 收斂速率的上界:sup|F_n(x) − Φ(x)| ≤ C·E|X|³/(σ³√n)。
過度離散與零膨脹
生物計數數據常呈現 Var > Mean(over-dispersion)和超量零值(zero-inflation)。
- 過度離散:負二項分布 NB(μ, θ),Var = μ + μ²/θ,當 θ → ∞ 回到泊松。
- 零膨脹:ZIP(Zero-Inflated Poisson)或 ZINB 以混合模型處理「結構性零」與「抽樣性零」。DESeq2(Love et al., 2014)和 edgeR(Robinson et al., 2010)對 RNA-seq 數據使用 NB 模型是標準做法。
Copula 與聯合分布
Sklar 定理(1959):任何多維聯合分布都可分解為各邊際分布加一個 copula 函數。Copula 捕捉變數間的依賴結構,獨立於邊際分布。生物醫學中用於建模多重終點(如同時分析無疾病存活和整體存活)。
文獻參考:Nelder, J.A. & Wedderburn, R.W.M. (1972). JRSS A, 135, 370-384. / Love, M.I. et al. (2014). Genome Biol, 15, 550.
