轉錄體學作為功能基因體學的核心支柱,經歷了從封閉式(probe-based)到開放式(sequencing-based)的典範轉移,當前正走向多模態整合和時空分辨的新階段。
轉錄體的複雜性
人類基因體的轉錄複雜度遠超最初預期。ENCODE 計畫揭示超過 75% 的基因體被轉錄,產生龐大的非編碼 RNA 庫。選擇性剪接使 ~20,000 個蛋白質編碼基因產生 >200,000 種轉錄本異構體(isoforms)。GENCODE v43 注釋了 ~62,000 個基因(含非編碼)和 >250,000 個轉錄本。
長讀定序與 isoform 解析
短讀 RNA-Seq 的根本限制是無法直接觀察全長轉錄本。PacBio Iso-Seq(using SMRT sequencing)和 ONT direct RNA sequencing 可以讀取完整 mRNA(including poly(A) tail),直接鑑定 isoform 結構而不需計算推斷。FLAIR 和 IsoQuant 針對長讀數據進行 isoform 鑑定和定量。ONT 的 direct RNA sequencing 更能直接偵測 RNA 修飾(如 m6A),不需要化學處理。
- Visium(10x Genomics):組織切片上的 barcoded spots(55 μm,含 ~10 個細胞),capture 全轉錄體
- MERFISH/seqFISH:基於螢光原位雜交的成像方法,subcellular resolution,但通量受限於探針數(通常數百到數千個基因)
- Slide-seq/HDST:高解析度的 spatial barcoding,接近單細胞
- Stereo-seq(BGI):sub-cellular resolution + 全轉錄體
轉錄調控的系統觀
基因調控網路推斷(Gene Regulatory Network Inference, GRN inference)從轉錄體數據反向工程調控關係。SCENIC(Aibar et al., 2017)結合共表達分析和 cis-regulatory motif enrichment 推斷 regulon(一個轉錄因子及其靶基因的集合)。CellOracle 整合 scATAC-seq 和 scRNA-seq 數據建構 GRN 並進行 in silico perturbation。
時間序列與動態轉錄體
代謝標記方法(metabolic labeling)如 SLAM-seq 和 TimeLapse-seq 使用 4-thiouridine(4sU)標記新合成的 RNA,可以區分新舊 RNA 並計算轉錄速率(synthesis rate)和降解速率(degradation rate),提供轉錄動態的直接測量。
