大1 · 第2學期生物統計描述統計

常見分布

Common Distributions

難度 2 · 基礎statistics想做成互動版

分布理論的進階主題涵蓋指數族、混合模型和漸近理論。

指數族（Exponential Family）

大多數常用分布可寫為 f(x|θ) = h(x)·exp(η(θ)·T(x) − A(θ)) 的形式。常態、二項、泊松、Gamma、Beta 均屬指數族。GLM（Generalized Linear Models, Nelder & Wedderburn, 1972）統一了不同分布下的回歸分析：g(E(Y)) = Xβ，其中 g 為 link function。常態→identity link（線性回歸）、二項→logit link（邏輯回歸）、泊松→log link（泊松回歸）。

混合分布（Mixture Models）

當數據來自多個子群體時，混合分布 f(x) = Σπₖfₖ(x|θₖ) 更合適。EM 演算法（Dempster et al., 1977）迭代 E-step（計算隸屬機率）和 M-step（更新參數）直到收斂。BIC 或 ICL 選擇成分數 K。應用：flow cytometry 的細胞群體分群、scRNA-seq 細胞類型識別。

中央極限定理的擴展

經典 CLT 要求 iid 和有限方差。Lindeberg-Feller CLT 放寬到獨立但不同分布的情況。對於重尾分布（如 Cauchy），CLT 不成立——此時 stable distributions 取代常態分布。Berry-Esseen 定理提供 CLT 收斂速率的上界：sup|F_n(x) − Φ(x)| ≤ C·E|X|³/(σ³√n)。

過度離散與零膨脹

生物計數數據常呈現 Var > Mean（over-dispersion）和超量零值（zero-inflation）。

過度離散：負二項分布 NB(μ, θ)，Var = μ + μ²/θ，當 θ → ∞ 回到泊松。
零膨脹：ZIP（Zero-Inflated Poisson）或 ZINB 以混合模型處理「結構性零」與「抽樣性零」。DESeq2（Love et al., 2014）和 edgeR（Robinson et al., 2010）對 RNA-seq 數據使用 NB 模型是標準做法。

Copula 與聯合分布

Sklar 定理（1959）：任何多維聯合分布都可分解為各邊際分布加一個 copula 函數。Copula 捕捉變數間的依賴結構，獨立於邊際分布。生物醫學中用於建模多重終點（如同時分析無疾病存活和整體存活）。

文獻參考：Nelder, J.A. & Wedderburn, R.W.M. (1972). JRSS A, 135, 370-384. / Love, M.I. et al. (2014). Genome Biol, 15, 550.

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

離散度量

生物統計 · 描述統計

難度 1 · 入門

↔ 別科也有用到

統計模型

生物資訊學 · 網路分析

難度 4 · 專業