等位基因頻率作為族群遺傳學的核心狀態變數,在 GWAS、族群結構分析、演化推論與保育遺傳學中扮演關鍵角色。
理論架構
Wright-Fisher 模型假設無限族群極限下,等位基因頻率為連續變數,可用 diffusion equation 描述:
∂φ/∂t = -∂(M(p)φ)/∂p + (1/2)∂²(V(p)φ)/∂p²
其中 M(p) 為頻率變化期望(選擇 + 突變 + 遷移),V(p) 為變異(漂變 = pq/2N)。Kimura 用此推導出無中性突變固定機率為 1/2N。
等位基因頻率譜(AFS)
Site Frequency Spectrum 顯示族群中各頻率類別 SNP 的數量分布,是推論族群歷史的主要工具:
- 中性穩定族群:predicted L-shape,多數 SNP 為低頻
- 族群擴張:低頻 SNP 過多
- 瓶頸:中頻 SNP 缺乏
- 平衡選擇:中頻 SNP 累積
Tajima's D = (π - θ_W) / √Var,正值表中頻過多(平衡選擇/瓶頸),負值表低頻過多(擴張/正選擇)。
等位基因年齡推估
中性等位基因平均年齡 ≈ 4N_e × p × ln(1/p),意味著低頻等位基因通常新近出現。GWAS 已知致病等位基因若極為罕見,常為近期突變。
Identity by Descent vs Identity by State
IBD:兩個等位基因因共同祖先而相同
IBS:兩個等位基因序列相同但可能無共同祖先
現代 ROH(runs of homozygosity)分析量化 IBD,揭示近交、族群結構與祖先軌跡。
Effective Population Size
N_e 不等於 census size,受性別比、繁殖變異、世代重疊、波動影響。人類 N_e ≈ 10,000(穩定數十萬年)但近期 census > 8 billion,反映 Founder/瓶頸效應。
Coalescent Theory
Kingman(1982)反向追溯等位基因合併(coalescence)至共同祖先。Time to MRCA 期望 = 4N_e generations(對單一 locus)。Coalescent 為現代族群推論的數學骨架,與 SFS 透過 fwd-bwd 變換等價。
Adaptive Introgression
從另一族群引入的等位基因若提供適應性優勢可快速上升頻率。經典案例:
- 西藏人 EPAS1 高海拔適應來自 Denisovan introgression
- 歐洲人某些免疫基因來自 Neanderthal
選擇掃描方法
- iHS, XP-EHH:基於 haplotype 長度檢測近期正選擇
- F_ST outliers:族群間極端分化 SNP
- CMS(composite multiple signals):整合多訊號
- PBS(population branch statistic):三族群比較
Polygenic Score 與等位基因頻率
PRS = Σ(β_i × x_i),但 β 多估算於歐洲族群,跨族群轉移時因 LD 與等位基因頻率差異而效力下降。當前 GWAS 全球代表性偏歧仍是精準醫學的主要障礙。
