實驗對照的設計是因果推論(causal inference)的基石。從 Fisher 的隨機化理論到現代的因果圖(DAG)和反事實框架(counterfactual framework),對照設計的方法學持續演進。
因果推論的理論框架
Ronald Fisher(1935, The Design of Experiments)形式化了隨機化在因果推論中的角色:隨機分派使處理效應(treatment effect)的估計不受混淆因子偏差。Jerzy Neyman 的潛在結果框架(potential outcomes framework, 1923)定義了個體因果效應為 Yi(1) - Yi(0)(同一個體在接受和未接受處理時的結果差異),但因為我們無法同時觀察同一個體的兩種結果(基本因果推論問題, fundamental problem of causal inference),隨機化確保處理組和對照組的平均結果差可作為平均因果效應(Average Treatment Effect, ATE)的無偏估計。
Judea Pearl 的結構因果模型(Structural Causal Model, SCM)和有向無環圖(Directed Acyclic Graph, DAG)提供了視覺化和形式化識別混淆因子的工具。在 DAG 中,混淆因子是同時影響處理變數和結果變數的共同原因;碰撞子(collider)則是同時被處理和結果影響的變數——不當地控制碰撞子反而會引入偏差(collider bias / Berkson's paradox),這是非直覺但極重要的統計陷阱。
對照設計的進階類型
交叉設計(crossover design)中每個受試者既當實驗組又當對照組(不同時期),可控制個體間差異,但須注意順序效應(order effect)和殘留效應(carryover effect)。析因設計(factorial design)同時操控多個自變項,不僅能評估每個因子的主效果(main effect),還能偵測因子間的交互作用(interaction)——Fisher(1926)最早在農業實驗中提出此設計。
在分子生物學實驗中,敲除/敲入(knockout/knockin)實驗的對照設計尤為關鍵。CRISPR 實驗的適當對照至少應包括:(1)未處理組(naive control)、(2)空載體對照(empty vector 或 non-targeting gRNA,控制轉染或轉導本身的影響)、(3)敲除效率驗證(Western blot 或 qPCR 確認目標蛋白/mRNA 確實減少)。rescue 實驗——在敲除背景下重新表現野生型基因以恢復表型——是最強的特異性證據。
再現性危機(Replication Crisis)與對照的重新審視
2010 年代的再現性危機揭示了對照不足和統計誤用的嚴重後果。Open Science Collaboration(2015, Science)重複了 100 項心理學研究,僅有 36% 達到統計顯著——原始研究中的選擇性報告、p-hacking(對數據進行多種分析直到找到 p < 0.05 的結果)和 HARKing(Hypothesizing After Results are Known,事後編造假說)是主要原因。
Ioannidis(2005, PLOS Medicine, "Why Most Published Research Findings Are False")的數學論證指出,在低事前概率(prior probability)、小樣本和靈活分析策略的組合下,大多數統計顯著的發現可能是假陽性。這催生了預先註冊(pre-registration)——在收集數據前公開登記研究假說、方法和分析計畫(如 ClinicalTrials.gov、OSF.io),限制事後修改的空間。
多重比較問題需要嚴格的校正:Bonferroni 校正(保守但簡單:α/n)、Benjamini-Hochberg FDR 控制(更靈活,控制假發現率而非家族錯誤率,特別適用於高通量組學實驗)。基因體學中 GWAS 的全基因體顯著性閾值(p < 5×10⁻⁸)反映了約一百萬次獨立測試的嚴格校正。
觀察性研究中的「類實驗」對照
當隨機化不可行時(如研究吸菸對健康的影響——不能隨機分派人去吸菸),觀察性研究使用統計方法模擬對照:傾向分數配對(propensity score matching, Rosenbaum & Rubin, 1983)根據所有已知混淆因子計算每個個體接受處理的概率(傾向分數),再配對傾向分數相似的處理組和對照組個體。工具變量法(instrumental variable, IV)利用只影響處理但不直接影響結果的變數來估計因果效應——Mendelian randomization 是基因流行病學中的 IV 應用,利用基因型作為「自然隨機化」的工具。
