邏輯回歸的理論深度涵蓋 GLM 框架、正規化和現代擴展。
GLM 框架中的位置
Logistic regression = GLM with binomial family + logit link。指數族表示:f(y|p) = exp(y·ln(p/(1−p)) + ln(1−p))。canonical link = logit。Score function U(β) = Xᵀ(Y−p̂),Fisher information I(β) = XᵀWX(W = diag(p̂ᵢ(1−p̂ᵢ))),β̂ 的漸近分布 N(β, I⁻¹)。
完全分離與正規化
當某個 X 完美預測 Y 時,MLE 不存在(β → ±∞)。Firth 偏差校正(Firth, 1993, Biometrika):penalized likelihood 加 Jeffreys prior(|I(β)|^{1/2}),解決小樣本和完全分離問題。Heinze & Schemper(2002)將 Firth logistic regression 推廣為標準實作(R: logistf 套件)。
正規化邏輯回歸
L1(LASSO logistic)和 L2(Ridge logistic)以 glmnet(Friedman et al., 2010)高效實作。Elastic net logistic regression 是高維生物標記篩選(如 GWAS polygenic risk score, PRS)的標準方法。
Calibration 與 Discrimination
- Discrimination(區辨力):AUC/C-statistic。Harrell's concordance index C 推廣到存活分析。
- Calibration(校準度):預測機率與觀察比例的一致性。Calibration plot(predicted vs observed probability)+ Hosmer-Lemeshow 或 calibration slope/intercept。
- Net Reclassification Improvement(NRI, Pencina et al., 2008)和 IDI(Integrated Discrimination Improvement)量化新標記加入後模型改善程度。
多類別擴展
- Multinomial logistic regression:K > 2 個類別,以一個參考類別為基線。softmax 函數 P(Y=k) = exp(Xβₖ)/Σexp(Xβⱼ)。
- Ordinal logistic regression(proportional odds model):累積 logit link,假設所有類別共用相同的 β(proportional odds assumption, Brant test 檢驗)。
條件邏輯回歸(Conditional Logistic Regression)
匹配的 case-control 研究中,以 stratum-specific likelihood 消除 nuisance parameters。McFadden 的條件 MLE = Σ log(exp(Xᵢβ)/Σⱼ∈stratum exp(Xⱼβ))。等價於 Cox partial likelihood 的離散時間版本。
文獻參考:Hosmer, D.W. & Lemeshow, S. (2000). Applied Logistic Regression, 2nd ed. / Firth, D. (1993). Biometrika, 80, 27-38. / Friedman, J. et al. (2010). J Stat Softw, 33, 1-22.
