RNA-Seq 數據分析的核心挑戰在於從 count data 中進行可靠的統計推論,同時處理技術偏差和生物學變異。
Count data 的統計建模
基因表現量的 read counts 服從 overdispersed Poisson 分布,實務上以 negative binomial(NB)分布建模:Y_gi ~ NB(μ_gi, α_g),其中 α_g 是基因特異的離散參數(dispersion)。DESeq2(Love et al., 2014)使用 shrinkage estimator 將離散參數向全域趨勢收縮(empirical Bayes),穩定低表達基因的變異估計。edgeR 使用 weighted likelihood empirical Bayes 進行類似的離散估計。
標準化的數學基礎
DESeq2 的 median-of-ratios 方法:size factor s_j = median_g(k_gj / (∏_j k_gj)^(1/n)),對 RNA 組成偏差(composition bias)比簡單的 total count normalization 更穩健。TMM(edgeR)使用 trimmed mean of M-values 達到類似目的。
Pseudoalignment 與定量
Salmon(Patro et al., 2017)和 kallisto(Bray et al., 2016)跳過傳統比對,直接用 lightweight mapping 將 reads 分配到轉錄本。Salmon 的 quasi-mapping 使用 suffix array 快速定位 k-mer 匹配區間;kallisto 使用 transcriptome de Bruijn graph。兩者都用 EM 演算法解決多重映射(multi-mapping)問題——當一條 read 可能來自多個 isoform 時,迭代估計各 isoform 的豐度分配。tximport 將 transcript-level 估計匯總為 gene-level counts,同時考慮 isoform 長度差異。
批次效應校正
SVA(surrogate variable analysis)用 SVD 從殘差矩陣中提取隱藏的混淆因子;RUVSeq 使用 empirical negative control genes(如 housekeeping genes)估計 unwanted variation 的因子。ComBat-seq 在 NB 框架下直接校正已知批次。
進階分析
- Alternative splicing:rMATS 使用 inclusion level 差異和似然比檢驗偵測差異剪接事件,報告 5 種剪接模式(SE, MXE, A5SS, A3SS, RI)
- Gene fusion detection:STAR-Fusion 利用 chimeric reads 偵測融合基因,CICERO 專為兒童癌症設計
- Allele-specific expression(ASE):利用 heterozygous SNP 區分兩個等位基因的表現量,WASP 方法校正 mapping bias
