大4 · 第1學期生物資訊學轉錄體學

RNA-Seq分析

RNA-Seq Analysis

難度 3 · 進階bioinformaticsmolecular-biology想做成互動版

RNA-Seq 數據分析的核心挑戰在於從 count data 中進行可靠的統計推論，同時處理技術偏差和生物學變異。

Count data 的統計建模
基因表現量的 read counts 服從 overdispersed Poisson 分布，實務上以 negative binomial（NB）分布建模：Y_gi ~ NB(μ_gi, α_g)，其中 α_g 是基因特異的離散參數（dispersion）。DESeq2（Love et al., 2014）使用 shrinkage estimator 將離散參數向全域趨勢收縮（empirical Bayes），穩定低表達基因的變異估計。edgeR 使用 weighted likelihood empirical Bayes 進行類似的離散估計。

標準化的數學基礎
DESeq2 的 median-of-ratios 方法：size factor s_j = median_g(k_gj / (∏_j k_gj)^(1/n))，對 RNA 組成偏差（composition bias）比簡單的 total count normalization 更穩健。TMM（edgeR）使用 trimmed mean of M-values 達到類似目的。

Pseudoalignment 與定量
Salmon（Patro et al., 2017）和 kallisto（Bray et al., 2016）跳過傳統比對，直接用 lightweight mapping 將 reads 分配到轉錄本。Salmon 的 quasi-mapping 使用 suffix array 快速定位 k-mer 匹配區間；kallisto 使用 transcriptome de Bruijn graph。兩者都用 EM 演算法解決多重映射（multi-mapping）問題——當一條 read 可能來自多個 isoform 時，迭代估計各 isoform 的豐度分配。tximport 將 transcript-level 估計匯總為 gene-level counts，同時考慮 isoform 長度差異。

批次效應校正
SVA（surrogate variable analysis）用 SVD 從殘差矩陣中提取隱藏的混淆因子；RUVSeq 使用 empirical negative control genes（如 housekeeping genes）估計 unwanted variation 的因子。ComBat-seq 在 NB 框架下直接校正已知批次。

進階分析

Alternative splicing：rMATS 使用 inclusion level 差異和似然比檢驗偵測差異剪接事件，報告 5 種剪接模式（SE, MXE, A5SS, A3SS, RI）
Gene fusion detection：STAR-Fusion 利用 chimeric reads 偵測融合基因，CICERO 專為兒童癌症設計
Allele-specific expression（ASE）：利用 heterozygous SNP 區分兩個等位基因的表現量，WASP 方法校正 mapping bias

互動工具