跳至主要內容
4 · 第1學期生物資訊學基因體分析

基因體作圖

Genome Mapping

難度 3 · 進階bioinformaticsgenetics

基因體作圖的演進反映了基因體學從低通量遺傳學到高通量基因體學的典範轉移

遺傳圖譜的統計基礎

連鎖分析的核心是估計重組率 θ。LOD score = log10[L(θ)/L(θ=0.5)],其中 L(θ) 是在重組率 θ 下家系數據的似然函數。Morton(1955)確立 LOD > 3(即連鎖的後驗機率 > 1000:1)為顯著閾值。多點連鎖分析(multipoint linkage)同時考慮多個標記的連鎖關係,使用 Lander-Green 演算法(隱馬可夫模型在家系中的應用)或 Elston-Stewart 演算法。

重組干擾(interference)——一次互換抑制附近再次互換——由 Kosambi 圖函數校正:d = (1/4)ln[(1+2θ)/(1-2θ)],而非 Haldane 的無干擾假設 d = -(1/2)ln(1-2θ)。

光學圖譜的技術原理

Bionano Genomics 系統將高分子量 DNA(>150 kb)線性化通過奈米通道,螢光標記的限制酶位點產生特徵模式。NanoChannel 技術可達 ~200 bp 的位置解析度。分子組裝演算法(如 RefAligner)將多個分子的模式重疊建構 consensus 圖譜,N50 通常 > 50 Mb。

光學圖譜在組裝中的角色:(1) 驗證 contig 順序和方向 (2) 偵測 misassembly(組裝錯誤處光學圖與 contig 不一致)(3) scaffolding(連接 contig 跨過未組裝的缺口)。VGP(Vertebrate Genomes Project)將光學圖譜作為品質控制的標準步驟。

Hi-C 的計算分析

Hi-C 數據的接觸矩陣 C(i,j) 反映基因體位點 i 和 j 的空間接觸頻率。在順式方向(同一條染色體上),接觸頻率大致與基因體距離呈冪律衰減:C(s) ~ s^(-γ),γ ≈ 1(Lieberman-Aiden et al., 2009, Science)。

scaffolding 演算法利用此性質:同一條 contig 或相鄰 contig 之間的 Hi-C 接觸頻率遠高於不同染色體。SALSA2 和 YaHS 是常用的 Hi-C scaffolding 工具,使用貪婪策略或圖論方法確定 contig 的順序和方向。

Hi-C 也揭示了染色體的分層 3D 組織:chromosome territories → A/B compartments → TADs(topologically associating domains)→ chromatin loops。這些結構特徵與基因表現調控密切相關。

整合圖譜在精準醫學中的應用

高密度 SNP 陣列和全基因體定序建構的精密遺傳圖結合 imputation 技術,使 GWAS 可達到 ~1 kb 解析度的 fine mapping。統計精細定位方法(如 CAVIAR、SuSiE)利用連鎖不平衡結構和 Bayesian 框架識別因果變異。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關