深度學習在生物資訊學中的應用已從實驗性工具轉變為基礎方法論。本節從架構設計、訓練策略和前沿模型三個維度探討。
蛋白質結構預測的深度學習革命
AlphaFold2(Jumper et al., Nature 2021)的核心架構——Evoformer——是專為蛋白質設計的 attention-based 架構。輸入為 MSA representation(Nseq × Nres × c)和 pair representation(Nres × Nres × c),透過交替的 MSA row/column attention 和 pair attention 更新特徵,最後由 Structure Module 輸出原子座標。關鍵創新包括:triangular multiplicative update(融合序列配對的幾何約束)和 recycling mechanism(迭代精修結構)。
後續發展:RoseTTAFold(Baek et al., Science 2021)使用三軌注意力架構同時處理 1D 序列、2D 距離圖和 3D 結構。AlphaFold-Multimer 預測蛋白質複合體結構。OpenFold 和 ESMFold 分別提供開源實作和不需要 MSA 的快速預測(ESMFold 使用 ESM-2 語言模型的 embeddings 取代 MSA 特徵,速度快 60 倍但精度略降)。AlphaFold3(Abramson et al., Nature 2024)整合了蛋白質、核酸、小分子和離子的結構預測,使用 diffusion-based 生成模型。
蛋白質語言模型(Protein Language Models)
借鑒 NLP 的大型語言模型思路,蛋白質語言模型在大規模蛋白質序列資料庫上進行自監督預訓練:
- ESM-2(Meta AI, Lin et al. 2023):使用 masked language modeling(MLM)在 ~6500 萬蛋白質序列上訓練,最大模型 15B 參數。學習到的 representations 隱含了蛋白質的演化、結構和功能資訊。
- ProtTrans 系列:使用不同 Transformer 架構(BERT、Albert、T5 等)在 UniRef/BFD 上訓練。
- ProGen2:自回歸蛋白質生成模型,可以根據功能描述「寫出」新的蛋白質序列。
預訓練語言模型的下游應用包括:secondary structure prediction、subcellular localization、function annotation、fitness landscape prediction、variant effect prediction。Transfer learning(微調預訓練模型用於特定任務)已成為蛋白質生物資訊學的標準範式。
基因組深度學習
Enformer(Avsec et al., Nature Methods 2021)使用 Transformer 架構從 ~200 kb 基因組序列窗口預測 5,313 個基因組 track(包括 CAGE、DNase、histone ChIP-seq 等),有效捕捉遠端調控元件(enhancers)的效應。與前代模型 Basenji2(dilated CNN)相比,Enformer 的長距離預測能力大幅提升。
Sei(Chen et al., Nature Genetics 2022)從序列預測 21,907 個染色質 profiles,用於非編碼變異的功能註釋。這些模型與 GWAS 結合,可以為非編碼風險位點提供機制性解釋。
藥物發現中的生成式 AI
分子生成模型經歷了從 RNN-based SMILES generation → VAE/GAN → diffusion models 的演進。DiffDock(Corso et al., ICLR 2023)使用 diffusion 模型進行分子對接(molecular docking),在 PDBBind benchmark 上超越傳統方法。RFdiffusion(Watson et al., Nature 2023)使用 RoseTTAFold 架構的 diffusion 模型從頭設計蛋白質結構,已成功設計出具有預期功能的新蛋白質。
挑戰與前沿
- 可解釋性:深度學習模型通常是「黑箱」。Attention visualization、SHAP values 和 integrated gradients 提供部分可解釋性,但離真正的機制理解還有距離。
- 數據偏差:訓練數據偏向已知蛋白質家族(PDB 中膜蛋白和非結構化蛋白質代表不足),模型在這些區域預測精度較差。
- 不確定性估計:AlphaFold 的 pLDDT 和 PAE 分數提供有限的不確定性估計,但全面的 Bayesian 不確定性量化仍是活躍研究方向。
