大2 · 第1學期遺傳學基因體學

全基因組關聯研究

Genome-Wide Association Studies

難度 4 · 專業geneticsbioinformatics想做成互動版

全基因組關聯研究（GWAS）自 2005 年首次成功報導（Klein et al., AMD 的 CFH Y402H）以來，已累積超過 6,000 篇研究，鑑定出數十萬個統計顯著的遺傳位點。然而，從統計關聯到因果機制的轉譯——「from GWAS hits to biology」——仍是領域的核心挑戰。

統計方法學的演進

早期 GWAS 使用簡單的邏輯/線性迴歸逐 SNP 檢定。為處理隱性族群分層和親緣關係，線性混合模型（LMM，如 BOLT-LMM、SAIGE）引入遺傳關係矩陣（GRM）作為隨機效應。SAIGE（Zhou et al., 2018）特別優化了二元性狀在大樣本和不平衡病例-對照比例下的計算效率和第一型錯誤控制，是 UK Biobank 分析的主流工具。

基因型填補從 1000 Genomes（~2,500 人）進步到 TOPMed（>97,000 人，含多族群）和 HPRC 泛基因組面板，大幅提升了低頻和罕見變異的填補準確度。全基因組定序（WGS）的 GWAS 直接捕捉罕見變異和結構變異，避免填補誤差，但成本仍高於晶片基因分型。

精細定位與因果變異鑑定

統計精細定位：FINEMAP、SuSiE 等工具從 LD 結構中推斷每個 SNP 作為因果變異的後驗機率，產出 credible set（95% 機率包含因果變異的最小 SNP 集合）。跨族群精細定位利用不同族群的 LD 差異縮小 credible set（如歐洲和東亞族群的 LD 模式差異可將候選區域縮小 >50%）。

功能註解整合：將 GWAS 信號與表觀基因組數據（ChromHMM 狀態、ATAC-seq 峰值）、eQTL/sQTL 數據（GTEx, eQTLGen）和 3D 基因組數據（Hi-C）整合。coloc 和 SMR 方法檢定 GWAS 信號和 eQTL 信號的共定位。TWAS（transcriptome-wide association study）和 PWAS（proteome-wide association study）利用遺傳預測的基因表達/蛋白質量作為中介表型。

遺失的遺傳度與常見疾病架構

SNP 遺傳度（h²_SNP，由 LDSC 或 GREML 估算）通常為雙胞胎遺傳度的 30-60%。差距來源包括：罕見變異（MAF <1%，需 WGS + burden/SKAT-O 檢定）、GxE 交互作用、epistasis、和結構變異。

Omnigenic 模型（Boyle et al., 2017）提出複雜性狀的遺傳架構由少數核心基因（core genes）和大量透過調控網路間接影響表型的周邊基因（peripheral genes）組成，解釋了 GWAS 信號分布廣泛且非編碼為主的觀察。

PRS 的臨床轉譯與挑戰

PRS 在風險分層（識別高風險亞群）和藥物反應預測方面有潛力。Khera et al.（2018）顯示冠心病 PRS 最高 8% 的人群與單基因家族性高膽固醇血症攜帶者有相當的疾病風險。但挑戰包括：（1）跨族群可移植性差（Martin et al., 2019 指出非歐洲血統群體 PRS 預測力下降 ~2-5 倍）；（2）臨床效用的增量價值需證明（在已有傳統風險因子的基礎上）；（3）倫理問題（保險歧視、遺傳決定論的誤解）。

藥物標靶發現

GWAS 為藥物研發提供遺傳驗證的靶點。Nelson et al.（2015）發現有 GWAS 支持的藥物靶點進入臨床試驗的成功率是無支持靶點的 2 倍。PCSK9（LDL-C GWAS）→ evolocumab/alirocumab、IL-6R（RA GWAS）→ tocilizumab 是成功範例。Open Targets 和 GWAS Catalog 整合平台加速了從關聯到標靶的轉譯。

大型生物銀行的推動力

UK Biobank（~500,000 人）、FinnGen（~500,000 人）、All of Us（目標 100 萬人）和 BioBank Japan 等資源大幅提升了 GWAS 的統計功效和可分析的表型數量。PheWAS（phenome-wide association study）反向探索已知變異與數千種表型的關聯，發現了大量的多效性（pleiotropy）——同一遺傳位點影響多個看似無關的性狀。GWAS×environment 交互作用的研究（GxE GWAS）正在將環境暴露整合進遺傳關聯分析中。

互動工具