跳至主要內容
1 · 第2學期生物統計回歸分析

線性回歸

Linear Regression

難度 2 · 基礎statistics

線性回歸的矩陣表示和進階議題涉及 Gauss-Markov 定理、穩健回歸和模型選擇。

矩陣表示

Y = Xβ + ε,OLS 解 β̂ = (XᵀX)⁻¹XᵀY。帽矩陣 H = X(XᵀX)⁻¹Xᵀ 將 Y 投影到 X 的列空間:Ŷ = HY。殘差 e = (I−H)Y。

Gauss-Markov 定理

在 LINE 假設(不需常態性)下,OLS 是 BLUE(Best Linear Unbiased Estimator)——在所有線性不偏估計量中方差最小。但若假設不滿足(異方差、相關殘差),OLS 不再最優。

異方差處理

  • HC(Heteroscedasticity-Consistent)標準誤:White(1980)的 sandwich estimator Var(β̂) = (XᵀX)⁻¹Xᵀ diag(eᵢ²) X(XᵀX)⁻¹。HC0-HC4 不同版本的小樣本修正。
  • 加權最小平方法(WLS):若 Var(εᵢ) = σ²/wᵢ 已知,最小化 Σwᵢ(yᵢ−xᵢᵀβ)²。
  • GLS(Generalized Least Squares):當殘差有相關結構 Cov(ε) = Σ 時,β̂_GLS = (XᵀΣ⁻¹X)⁻¹XᵀΣ⁻¹Y。

穩健回歸

  • M-estimation:最小化 Σρ(eᵢ/σ̂),Huber 和 Tukey bisquare 是常用 ρ 函數。IRLS(Iteratively Reweighted Least Squares)迭代求解。
  • 分位數回歸(Quantile Regression, Koenker & Bassett, 1978):估計條件分位數而非條件均值,對異方差和重尾穩健。

模型選擇準則

  • AIC = −2ℓ + 2k,平衡擬合度和複雜度。
  • BIC = −2ℓ + k·ln(n),在大樣本時對複雜模型懲罰更重。
  • 交叉驗證(Cross-Validation):k-fold CV 直接估計預測誤差。Leave-one-out CV 的 PRESS 統計量等價於 Σeᵢ²/(1−hᵢᵢ)²。

因果推論中的回歸

回歸的 β₁ 只在特定條件下有因果解釋。需滿足:(1) 正確的函數形式,(2) 無遺漏干擾變數(ignorability/unconfoundedness),(3) 正確的控制變數選擇(DAG 指導)。Angrist & Pischke(2009)的「mostly harmless econometrics」框架強調以 IV、RDD、DiD 等方法處理內生性。

文獻參考:White, H. (1980). Econometrica, 48, 817-838. / Koenker, R. & Bassett, G. (1978). Econometrica, 46, 33-50.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關