線性回歸的矩陣表示和進階議題涉及 Gauss-Markov 定理、穩健回歸和模型選擇。
矩陣表示
Y = Xβ + ε,OLS 解 β̂ = (XᵀX)⁻¹XᵀY。帽矩陣 H = X(XᵀX)⁻¹Xᵀ 將 Y 投影到 X 的列空間:Ŷ = HY。殘差 e = (I−H)Y。
Gauss-Markov 定理
在 LINE 假設(不需常態性)下,OLS 是 BLUE(Best Linear Unbiased Estimator)——在所有線性不偏估計量中方差最小。但若假設不滿足(異方差、相關殘差),OLS 不再最優。
異方差處理
- HC(Heteroscedasticity-Consistent)標準誤:White(1980)的 sandwich estimator Var(β̂) = (XᵀX)⁻¹Xᵀ diag(eᵢ²) X(XᵀX)⁻¹。HC0-HC4 不同版本的小樣本修正。
- 加權最小平方法(WLS):若 Var(εᵢ) = σ²/wᵢ 已知,最小化 Σwᵢ(yᵢ−xᵢᵀβ)²。
- GLS(Generalized Least Squares):當殘差有相關結構 Cov(ε) = Σ 時,β̂_GLS = (XᵀΣ⁻¹X)⁻¹XᵀΣ⁻¹Y。
穩健回歸
- M-estimation:最小化 Σρ(eᵢ/σ̂),Huber 和 Tukey bisquare 是常用 ρ 函數。IRLS(Iteratively Reweighted Least Squares)迭代求解。
- 分位數回歸(Quantile Regression, Koenker & Bassett, 1978):估計條件分位數而非條件均值,對異方差和重尾穩健。
模型選擇準則
- AIC = −2ℓ + 2k,平衡擬合度和複雜度。
- BIC = −2ℓ + k·ln(n),在大樣本時對複雜模型懲罰更重。
- 交叉驗證(Cross-Validation):k-fold CV 直接估計預測誤差。Leave-one-out CV 的 PRESS 統計量等價於 Σeᵢ²/(1−hᵢᵢ)²。
因果推論中的回歸
回歸的 β₁ 只在特定條件下有因果解釋。需滿足:(1) 正確的函數形式,(2) 無遺漏干擾變數(ignorability/unconfoundedness),(3) 正確的控制變數選擇(DAG 指導)。Angrist & Pischke(2009)的「mostly harmless econometrics」框架強調以 IV、RDD、DiD 等方法處理內生性。
文獻參考:White, H. (1980). Econometrica, 48, 817-838. / Koenker, R. & Bassett, G. (1978). Econometrica, 46, 33-50.
