ATAC-Seq 提供全基因體尺度的染色質可及性景觀(chromatin accessibility landscape),是理解 cis-regulatory elements 活性狀態的關鍵技術。
Tn5 插入偏好性
Tn5 transposase 並非完全隨機插入——它對特定 DNA 序列有弱偏好性(~2-fold enrichment for certain motifs at insertion sites)。Bentsen et al.(2020)開發的 TOBIAS 方法使用 bias correction model 校正 Tn5 序列偏好,大幅改善 TF footprinting 的準確度。
Peak calling 的統計基礎
MACS2(Zhang et al., 2008)將基因體分成 bins,在每個 bin 中用 Poisson distribution 建模背景,lambda_local = max(lambda_BG, lambda_1k, lambda_5k, lambda_10k) 取不同尺度的最大值作為局部背景估計。fold enrichment = treatment / lambda_local。p-value 經 BH 校正後用 FDR 門檻篩選 peaks。Genrich 是專門為 ATAC-Seq 設計的 peak caller,直接使用 Tn5 insertion sites 而非 read coverage。
核小體定位分析
NucleoATAC(Schep et al., 2015)利用 ATAC-Seq 的 fragment size 和 position 資訊推斷精確的核小體位置和佔據率(occupancy)。V-plot(fragment midpoint vs. fragment length centered on a genomic feature)是核小體定位的經典視覺化——NFR 在 V-plot 上呈現特徵性的 V 形缺口。
單細胞 ATAC-Seq 分析
scATAC-seq 數據極度稀疏(每個細胞只有 ~10,000-50,000 unique fragments covering ~2% of peaks)。ArchR(Granja et al., 2021)和 Signac(Stuart et al., 2021)提供端到端分析框架:
- LSI(Latent Semantic Indexing):TF-IDF 標準化 + SVD 降維,類似 scRNA-seq 的 PCA
- Gene activity score:將 gene body + promoter 的 ATAC signal 彙總為 gene-level pseudo-expression
- Peak-to-gene linkage:correlation-based method 連結 peaks 到 target genes,推斷 enhancer-gene regulatory relationships
- ChromVAR(Schep et al., 2017):計算每個細胞中 TF motif 的可及性偏差(deviation),推斷 TF 活性
多模態整合
10x Multiome(joint RNA + ATAC from the same cell)提供了直接連結 regulatory landscape 和 transcriptional output 的能力。SHARE-seq 和 PAIRED-seq 是較早的 joint profiling 方法。整合分析可以建構 enhancer → gene → pathway 的因果調控鏈。
