大1 · 第2學期生物統計回歸分析

多元回歸

Multiple Regression

難度 3 · 進階statistics

多元回歸的進階議題涉及正規化、高維度和因果推論中的變數選擇。

正規化回歸（Penalized Regression）

Ridge 回歸：β̂_ridge = argmin(‖Y−Xβ‖² + λ‖β‖²₂)。L2 懲罰縮小係數但不設為零。λ 以 GCV 或 CV 選擇。解析解 β̂ = (XᵀX + λI)⁻¹XᵀY。
LASSO（Tibshirani, 1996）：β̂_lasso = argmin(‖Y−Xβ‖² + λ‖β‖₁)。L1 懲罰可將部分係數精確壓縮到零→自動變數選擇。用 coordinate descent 求解。
Elastic Net（Zou & Hastie, 2005）：結合 L1 和 L2：λ(α‖β‖₁ + (1−α)‖β‖²₂)。克服 LASSO 在 p > n 或高度共線時的限制。

Bias-Variance Tradeoff

OLS 是 unbiased 但在高維度下 variance 大。正規化引入 bias 但大幅降低 variance，總預測誤差 MSE = Bias² + Variance 可能更小。James-Stein estimator（1961）證明在 p ≥ 3 時 MLE 非 admissible——shrinkage 嚴格改善 total MSE。

高維回歸（p >> n）

傳統 OLS 無法求解（XᵀX 奇異）。LASSO + stability selection（Meinshausen & Bühlmann, 2010）：多次子採樣上運行 LASSO，選擇穩定出現的變數。de-biased LASSO（van de Geer et al., 2014）提供高維設定下的 valid p-values 和 CI。

因果推論中的變數選擇

DAG 框架指導控制哪些變數：

控制 confounder（共同原因）：必要。
不控制 collider（共同結果）：控制反而引入偏差（collider bias, Berkson's paradox）。
不控制 mediator（除非想分解直接/間接效果）。
VanderWeele（2019, Epidemiology）的 modified disjunctive cause criterion 建議控制「X 或 Y 的原因」但不控制 instrument 或 collider。

文獻參考：Tibshirani, R. (1996). JRSS B, 58, 267-288. / Zou, H. & Hastie, T. (2005). JRSS B, 67, 301-320. / VanderWeele, T.J. (2019). Epidemiology, 30, 163-170.

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

線性回歸

生物統計 · 回歸分析

難度 2 · 基礎