跳至主要內容
1 · 第2學期生物統計回歸分析

多元回歸

Multiple Regression

難度 3 · 進階statistics

多元回歸的進階議題涉及正規化、高維度和因果推論中的變數選擇。

正規化回歸(Penalized Regression)

  • Ridge 回歸:β̂_ridge = argmin(‖Y−Xβ‖² + λ‖β‖²₂)。L2 懲罰縮小係數但不設為零。λ 以 GCV 或 CV 選擇。解析解 β̂ = (XᵀX + λI)⁻¹XᵀY。
  • LASSO(Tibshirani, 1996):β̂_lasso = argmin(‖Y−Xβ‖² + λ‖β‖₁)。L1 懲罰可將部分係數精確壓縮到零→自動變數選擇。用 coordinate descent 求解。
  • Elastic Net(Zou & Hastie, 2005):結合 L1 和 L2:λ(α‖β‖₁ + (1−α)‖β‖²₂)。克服 LASSO 在 p > n 或高度共線時的限制。

Bias-Variance Tradeoff

OLS 是 unbiased 但在高維度下 variance 大。正規化引入 bias 但大幅降低 variance,總預測誤差 MSE = Bias² + Variance 可能更小。James-Stein estimator(1961)證明在 p ≥ 3 時 MLE 非 admissible——shrinkage 嚴格改善 total MSE。

高維回歸(p >> n)

傳統 OLS 無法求解(XᵀX 奇異)。LASSO + stability selection(Meinshausen & Bühlmann, 2010):多次子採樣上運行 LASSO,選擇穩定出現的變數。de-biased LASSO(van de Geer et al., 2014)提供高維設定下的 valid p-values 和 CI。

因果推論中的變數選擇

DAG 框架指導控制哪些變數:

  • 控制 confounder(共同原因):必要。
  • 不控制 collider(共同結果):控制反而引入偏差(collider bias, Berkson's paradox)。
  • 不控制 mediator(除非想分解直接/間接效果)。
    VanderWeele(2019, Epidemiology)的 modified disjunctive cause criterion 建議控制「X 或 Y 的原因」但不控制 instrument 或 collider。

文獻參考:Tibshirani, R. (1996). JRSS B, 58, 267-288. / Zou, H. & Hastie, T. (2005). JRSS B, 67, 301-320. / VanderWeele, T.J. (2019). Epidemiology, 30, 163-170.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關