比較基因組學(Comparative Genomics)已從序列層面的同源性比對,發展為整合結構變異、三維基因組架構、表觀基因組和轉錄體的多維度跨物種比較框架。隨著長讀長定序和 T2T 基因組組裝的普及,先前受限於組裝品質的區域(重複序列、著絲粒、端粒、segmental duplications)正在被系統性解析。
系統發育基因組學與直系同源推斷
直系同源(orthologs)和旁系同源(paralogs)的正確區分是功能推斷的基礎。OrthoFinder(Emms & Kelly, 2019)和 OMA 使用基於圖論的演算法從全基因組蛋白質比對中推斷 orthogroup。基因樹-物種樹調和(reconciliation)方法可區分基因重複、基因丟失和水平基因轉移事件。不完全譜系分選(incomplete lineage sorting, ILS)在輻射演化物種(如非洲大猿、鳴禽)中普遍存在,使單一基因樹可能與物種樹不一致,需以 coalescent-based 方法(ASTRAL、ASTRAL-Pro)處理。
選擇壓力的定量分析
dN/dS(ω)分析使用密碼子替換模型(如 PAML 的 codeml)在系統發育框架中估算。branch-site model 可偵測特定譜系上特定位點的正選擇,例如 Zhang et al.(2005)發現人類 FOXP2 在人類譜系上受正選擇,與語言演化相關。PHAST 的 phyloP 和 phastCons 分數使用系統發育隱馬可夫模型量化位點層級的保守性,廣泛用於變異致病性評估(如 CADD 分數的組成特徵之一)。
超保守元件(UCE, Bejerano et al., 2004)——人鼠雞間 ≥200 bp 100% 相同——的刪除在小鼠中竟然部分可存活(Ahituv et al., 2007),引發「UCE 的功能冗餘 vs. 條件性必要」的討論。後續研究發現 UCE 的刪除在特定環境壓力或發育條件下才顯現表型。
合成分析(Synteny)與染色體演化
合成分析追蹤基因在染色體上的排列順序隨演化的變化。宏觀合成性(macrosynteny)反映大尺度的染色體保守(如人類 17 號和小鼠 11 號間的大片段同線性);微觀合成性(microsynteny)保留鄰近基因的順序,常與共享的調控機制相關(如 HOX 基因簇的保守排列與其時空共線性表達有關)。全基因組重複(WGD)事件在脊椎動物演化中發生了兩次(2R 假說, Ohno 1970),硬骨魚額外一次(3R),植物中更頻繁。WGD 後的基因保留偏向劑量敏感基因(轉錄因子、信號分子),符合基因平衡假說。
人類加速區域(HAR)與人類特異性演化
Pollard et al.(2006)鑑定了 49 個在哺乳類中高度保守、但在人類譜系上加速演化的基因組區域。HAR1 在胎兒皮質的 Cajal-Retzius 細胞中表達,HAR2 是肢體發育增強子。Won et al.(2019)利用 Hi-C 發現 HAR 富集於人類特異性三維基因組互動中,暗示人類大腦演化的基因調控基礎。
技術前沿
泛基因組(pangenome)概念取代單一參考基因組。人類泛基因組參考(HPRC, Liao et al., 2023)整合 47 個個體的完整基因組組裝,增加了 119 Mb 的新序列和 ~1,100 個新基因重複。動植物的泛基因組(如水稻、番茄)揭示了品種間大量的存在-缺失變異(PAV)和結構變異,挑戰了「核心基因組 + 可變基因組」的簡單二分法。Zoonomia 聯盟(2023)完成 240 種哺乳類基因組的系統比較,鑑定出受限制的非編碼元件佔基因組 ~3.3%,並發現瀕危物種基因組中有害突變的累積模式。
保守性在臨床中的應用
跨物種保守性分數(phyloP、phastCons、GERP)已成為人類變異致病性評估的標準特徵。CADD 分數整合了保守性與其他功能註解,AlphaMissense 則結合蛋白質結構預測評估錯義變異的致病概率。模式生物(斑馬魚、果蠅、線蟲)中的基因敲除表型可透過直系同源推斷直接轉譯為人類疾病候選基因的功能驗證,IMPC(International Mouse Phenotyping Consortium)已系統性敲除超過 9,000 個小鼠基因並記錄表型。
