跳至主要內容
1 · 第2學期生物統計實驗設計

實驗設計原則

Principles of Experimental Design

難度 2 · 基礎statistics

實驗設計理論從 Fisher 的經典農業試驗框架發展到現代適應臨床試驗和因果推論的形式化體系,是生物醫學研究方法論的核心支柱。

Fisher 三原則的統計基礎

R.A. Fisher(1935, The Design of Experiments)確立的三原則——隨機化、重複和局部控制——至今仍是實驗設計的理論基石。隨機化不僅消除選擇偏差,更為推論統計提供效度基礎:在 permutation-based inference 的框架中,隨機化本身就是統計推論的充分條件,不需要假設特定的母體分佈。Fisher 以著名的「品茶女士」實驗闡述了隨機化檢定(Fisher's exact test)的邏輯。

統計檢定力分析與效果量

Neyman-Pearson 框架下的四個互聯參數——α(Type I error rate)、β(Type II error rate)、效果量(effect size, ES)和樣本量 n——構成統計檢定力分析的基礎。Jacob Cohen(1988, Statistical Power Analysis for the Behavioral Sciences)為常見檢定定義了小/中/大效果量的慣例(如 Cohen's d = 0.2/0.5/0.8),但生物醫學研究應基於最小臨床重要差異(MCID, minimal clinically important difference)而非任意慣例計算樣本量。

在組學研究中,多重比較問題尤為嚴峻。同時檢定數千至數百萬個假說時,Bonferroni 校正(α/m,family-wise error rate 控制)過於保守。Benjamini & Hochberg(1995, JRSS-B)提出的 False Discovery Rate(FDR)控制程序成為組學研究的標準——FDR = 5% 意味著在所有被宣稱為「顯著」的結果中,預期有 5% 是偽陽性。Storey(2002)的 q-value 方法進一步利用 p-value 的分佈估計 π₀(真虛無假說的比例),提高統計效率。

因子設計與高通量實驗

因子設計同時操控多個因子,效率遠超 OFAT(one-factor-at-a-time)設計——Fisher 指出 OFAT 不僅效率低,還無法估計交互作用。2ᵏ 全因子設計(k 因子各 2 水準)用 2ᵏ 組合估計所有主效應和交互作用。當 k 很大時,部分因子設計(fractional factorial,如 2ᵏ⁻ᵖ)和 Plackett-Burman 設計以較少的實驗次數篩選主效應,犧牲高階交互作用的估計。反應曲面法(RSM, Box & Wilson, 1951)在找到重要因子後用中心複合設計(CCD)或 Box-Behnken 設計進行最佳化。

高通量篩選實驗(如藥物篩選、CRISPR 篩選)結合因子設計和統計方法:CRISPR pooled screen 使用 sgRNA library,以 MAGeCK(Li et al., 2014)或 BAGEL2 等工具從 read count 的變化推斷基因功能。

觀察性研究中的因果推論

當隨機化不可行時,觀察性研究需要專門的因果推論策略。Judea Pearl 的 structural causal model(SCM)和 do-calculus 將因果推論形式化,區分觀察條件機率 P(Y|X) 和介入效果 P(Y|do(X))。Directed Acyclic Graphs(DAGs)視覺化因果假設,backdoor criterion 指導哪些混淆因子需要調整,front-door criterion 在存在未測量混淆時仍可識別因果效應。

Rubin 因果模型(potential outcomes framework)以反事實(counterfactual)定義因果效應:個體 i 的因果效應 = Yᵢ(1) − Yᵢ(0),但我們永遠只能觀察到其中一個(fundamental problem of causal inference)。ATE(average treatment effect)透過隨機化或觀察性數據的調整策略估計。傾向分數(propensity score, Rosenbaum & Rubin, 1983)是在觀察性研究中模擬隨機化的主要工具。

適應性設計與平台試驗

傳統頻率主義臨床試驗在開始前固定所有設計參數。適應性設計(adaptive design)允許根據累積數據在預定義的決策規則下調整樣本量、隨機化比例或刪除無效治療組(如 REMAP-CAP 在 COVID-19 中的成功應用——同一平台同時評估多種治療,使用貝葉斯響應適應性隨機化,快速宣布 dexamethasone 和 IL-6 受體阻斷劑的有效性)。

貝葉斯方法以先驗分佈 π(θ) 結合似然函數 L(data|θ) 更新為後驗分佈 π(θ|data),提供直觀的決策框架——如 P(θ > 0 | data) > 0.975 即宣布有效。相較於頻率主義的 p-value(在虛無假說為真的前提下觀測到極端數據的機率),後驗機率直接回答臨床醫生關心的問題:「給定觀測到的數據,治療有效的機率是多少?」

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

有寫過的文章