跳至主要內容
4 · 第1學期生物資訊學表觀基因體學

甲基化分析

Methylation Analysis

難度 4 · 專業bioinformaticsgenetics

DNA 甲基化分析的計算框架需要處理亞硫酸氫鹽轉換的序列偏差、位點間的空間相關性、以及組織異質性的去卷積。

BS-seq 比對的計算挑戰
亞硫酸氫鹽處理後 DNA 序列的複雜度降低(C→T 轉換使 4-letter alphabet 有效退化為 3 letters),導致比對模糊度增加。Bismark(Krueger & Andrews, 2011)的策略是對參考基因體進行 in silico C→T 和 G→A 轉換,建立兩個轉換索引,再用 Bowtie2 比對。bwa-meth 直接在原始參考上比對但使用修改的 scoring matrix。bisulfite conversion rate(>99% 理想)需用 lambda DNA spike-in 或未甲基化的 mitochondrial DNA 來評估。

差異甲基化的統計模型

  • DSS(Park & Wu, 2016):Bayesian hierarchical model,將每個 CpG 的 methylation count 建模為 Beta-binomial distribution,使用 Wald test 檢驗差異,再用 HMM 或 sliding window 合併相鄰的 DML 為 DMR
  • dmrseq(Korthauer et al., 2019):two-stage approach——先用 bump-hunting 識別候選 DMR,再用 permutation test 評估統計顯著性,控制 genome-wide FWER

Cell-type deconvolution
組織樣本的甲基化是各細胞類型甲基化模式的加權平均。Houseman et al.(2012)的 reference-based 方法:Y = Xβ + ε,其中 Y 是觀測甲基化、X 是 reference methylation profiles、β 是細胞類型比例。EpiDISH 和 MethylResolver 提供 robust 的反卷積實現。Reference-free methods(如 RefFreeEWAS)使用 SVD 估計隱藏的細胞類型混淆因子。

Epigenetic clocks
Horvath multi-tissue clock(2013):elastic net regression 訓練於 8,000+ 樣本,選出 353 CpG sites,DNAm age = inverse of calibration function applied to weighted sum。GrimAge(Lu et al., 2019)整合 DNAm-based surrogate markers(吸菸 pack-years、血漿蛋白水平)和 chronological age,是 mortality prediction 最強的 clock。DunedinPACE(Belsky et al., 2022)測量 aging rate 而非 age。

Nanopore methylation calling
ONT 的 basecalling model(如 Dorado)直接從 raw signal 中偵測 modified bases,不需要 bisulfite 轉換。Megalodon 和 modkit 提供 per-read methylation probability。優勢:(1) 同時偵測多種修飾(5mC, 5hmC, 6mA);(2) 保留長 read 的 single-molecule phasing 資訊;(3) 無 PCR bias。但 accuracy(~95% per-read)低於 BS-seq。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關