全基因組關聯研究(GWAS)自 2005 年首次成功報導(Klein et al., AMD 的 CFH Y402H)以來,已累積超過 6,000 篇研究,鑑定出數十萬個統計顯著的遺傳位點。然而,從統計關聯到因果機制的轉譯——「from GWAS hits to biology」——仍是領域的核心挑戰。
統計方法學的演進
早期 GWAS 使用簡單的邏輯/線性迴歸逐 SNP 檢定。為處理隱性族群分層和親緣關係,線性混合模型(LMM,如 BOLT-LMM、SAIGE)引入遺傳關係矩陣(GRM)作為隨機效應。SAIGE(Zhou et al., 2018)特別優化了二元性狀在大樣本和不平衡病例-對照比例下的計算效率和第一型錯誤控制,是 UK Biobank 分析的主流工具。
基因型填補從 1000 Genomes(~2,500 人)進步到 TOPMed(>97,000 人,含多族群)和 HPRC 泛基因組面板,大幅提升了低頻和罕見變異的填補準確度。全基因組定序(WGS)的 GWAS 直接捕捉罕見變異和結構變異,避免填補誤差,但成本仍高於晶片基因分型。
精細定位與因果變異鑑定
統計精細定位:FINEMAP、SuSiE 等工具從 LD 結構中推斷每個 SNP 作為因果變異的後驗機率,產出 credible set(95% 機率包含因果變異的最小 SNP 集合)。跨族群精細定位利用不同族群的 LD 差異縮小 credible set(如歐洲和東亞族群的 LD 模式差異可將候選區域縮小 >50%)。
功能註解整合:將 GWAS 信號與表觀基因組數據(ChromHMM 狀態、ATAC-seq 峰值)、eQTL/sQTL 數據(GTEx, eQTLGen)和 3D 基因組數據(Hi-C)整合。coloc 和 SMR 方法檢定 GWAS 信號和 eQTL 信號的共定位。TWAS(transcriptome-wide association study)和 PWAS(proteome-wide association study)利用遺傳預測的基因表達/蛋白質量作為中介表型。
遺失的遺傳度與常見疾病架構
SNP 遺傳度(h²_SNP,由 LDSC 或 GREML 估算)通常為雙胞胎遺傳度的 30-60%。差距來源包括:罕見變異(MAF <1%,需 WGS + burden/SKAT-O 檢定)、GxE 交互作用、epistasis、和結構變異。
Omnigenic 模型(Boyle et al., 2017)提出複雜性狀的遺傳架構由少數核心基因(core genes)和大量透過調控網路間接影響表型的周邊基因(peripheral genes)組成,解釋了 GWAS 信號分布廣泛且非編碼為主的觀察。
PRS 的臨床轉譯與挑戰
PRS 在風險分層(識別高風險亞群)和藥物反應預測方面有潛力。Khera et al.(2018)顯示冠心病 PRS 最高 8% 的人群與單基因家族性高膽固醇血症攜帶者有相當的疾病風險。但挑戰包括:(1)跨族群可移植性差(Martin et al., 2019 指出非歐洲血統群體 PRS 預測力下降 ~2-5 倍);(2)臨床效用的增量價值需證明(在已有傳統風險因子的基礎上);(3)倫理問題(保險歧視、遺傳決定論的誤解)。
GWAS 為藥物研發提供遺傳驗證的靶點。Nelson et al.(2015)發現有 GWAS 支持的藥物靶點進入臨床試驗的成功率是無支持靶點的 2 倍。PCSK9(LDL-C GWAS)→ evolocumab/alirocumab、IL-6R(RA GWAS)→ tocilizumab 是成功範例。Open Targets 和 GWAS Catalog 整合平台加速了從關聯到標靶的轉譯。
大型生物銀行的推動力
UK Biobank(~500,000 人)、FinnGen(~500,000 人)、All of Us(目標 100 萬人)和 BioBank Japan 等資源大幅提升了 GWAS 的統計功效和可分析的表型數量。PheWAS(phenome-wide association study)反向探索已知變異與數千種表型的關聯,發現了大量的多效性(pleiotropy)——同一遺傳位點影響多個看似無關的性狀。GWAS×environment 交互作用的研究(GxE GWAS)正在將環境暴露整合進遺傳關聯分析中。
