跳至主要內容
1 · 第2學期生物統計回歸分析

相關分析

Correlation Analysis

難度 2 · 基礎statistics想做成互動版

相關的理論深度涵蓋分布理論、高維推論與因果推論方法。

分布理論

在 bivariate normal 下,r 的精確分布涉及超幾何函數(Fisher, 1915, Biometrika)。Fisher z-transform z = tanh⁻¹(r) 使其近似 N(tanh⁻¹(ρ), 1/(n−3)),是 variance-stabilizing transform。Olkin & Pratt(1958)給出 E[r] = ρ − ρ(1−ρ²)/(2(n−1)) 的偏差修正。

相關矩陣的估計

p 變數間有 p(p−1)/2 個相關係數。高維時(p >> n),sample correlation matrix 退化。Shrinkage estimator(Ledoit & Wolf, 2004, J Multivariate Anal):Σ̂* = δF + (1−δ)S,S = sample covariance, F = structured target。Graphical LASSO(Friedman et al., 2008)估計 sparse precision matrix Ω = Σ⁻¹,非零元素對應 conditional dependencies。

多重相關與典型相關

Multiple R² = 1 − SSE/SST(回歸的決定係數)。Canonical Correlation Analysis(CCA, Hotelling, 1936):找兩組變數的線性組合使相關最大。Sparse CCA(Witten, Tibshirani & Hastie, 2009, Biostatistics)用於 multi-omics 整合(如 gene expression vs metabolomics)。

距離相關(Distance Correlation)

Székely, Rizzo & Bakirov(2007, Ann Stat):dCor(X,Y) ≥ 0,且 = 0 iff X⊥Y(任何維度、任何關聯型態)。計算為 centered distance matrices 的內積。Power 分析:dCor 可偵測非線性關聯但計算量 O(n²)。

因果推論中的相關

Reichenbach's common cause principle:X 與 Y 相關 → X→Y 或 Y→X 或存在 Z→X, Z→Y。Mendelian Randomization 以遺傳變異作為 instrument variable 推論因果方向(Davey Smith & Ebrahim, 2003, Int J Epidemiol)。Partial correlation 在 Gaussian graphical model 中等同 conditional independence。

Intraclass Correlation (ICC)

衡量同一群組內觀測值的一致性。ICC(1,1)、ICC(2,1)、ICC(3,1) 對應不同 ANOVA 模型(Shrout & Fleiss, 1979, Psychol Bull)。在 reliability 研究和多層次模型中:ICC = σ²_between / (σ²_between + σ²_within)。

文獻參考:Fisher, R.A. (1915). Biometrika, 10, 507-521. / Székely, G.J. et al. (2007). Ann Stat, 35, 2769-2794. / Shrout, P.E. & Fleiss, J.L. (1979). Psychol Bull, 86, 420-428.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關