大4 · 第1學期生物資訊學網路分析

深度學習在生物

Deep Learning in Biology

難度 4 · 專業machine-learningAI想做成互動版

深度學習在生物資訊學中的應用已從實驗性工具轉變為基礎方法論。本節從架構設計、訓練策略和前沿模型三個維度探討。

AlphaFold2（Jumper et al., Nature 2021）的核心架構——Evoformer——是專為蛋白質設計的 attention-based 架構。輸入為 MSA representation（Nseq × Nres × c）和 pair representation（Nres × Nres × c），透過交替的 MSA row/column attention 和 pair attention 更新特徵，最後由 Structure Module 輸出原子座標。關鍵創新包括：triangular multiplicative update（融合序列配對的幾何約束）和 recycling mechanism（迭代精修結構）。

後續發展：RoseTTAFold（Baek et al., Science 2021）使用三軌注意力架構同時處理 1D 序列、2D 距離圖和 3D 結構。AlphaFold-Multimer 預測蛋白質複合體結構。OpenFold 和 ESMFold 分別提供開源實作和不需要 MSA 的快速預測（ESMFold 使用 ESM-2 語言模型的 embeddings 取代 MSA 特徵，速度快 60 倍但精度略降）。AlphaFold3（Abramson et al., Nature 2024）整合了蛋白質、核酸、小分子和離子的結構預測，使用 diffusion-based 生成模型。

蛋白質語言模型（Protein Language Models）

借鑒 NLP 的大型語言模型思路，蛋白質語言模型在大規模蛋白質序列資料庫上進行自監督預訓練：

ESM-2（Meta AI, Lin et al. 2023）：使用 masked language modeling（MLM）在 ~6500 萬蛋白質序列上訓練，最大模型 15B 參數。學習到的 representations 隱含了蛋白質的演化、結構和功能資訊。
ProtTrans 系列：使用不同 Transformer 架構（BERT、Albert、T5 等）在 UniRef/BFD 上訓練。
ProGen2：自回歸蛋白質生成模型，可以根據功能描述「寫出」新的蛋白質序列。

預訓練語言模型的下游應用包括：secondary structure prediction、subcellular localization、function annotation、fitness landscape prediction、variant effect prediction。Transfer learning（微調預訓練模型用於特定任務）已成為蛋白質生物資訊學的標準範式。

基因組深度學習

Enformer（Avsec et al., Nature Methods 2021）使用 Transformer 架構從 ~200 kb 基因組序列窗口預測 5,313 個基因組 track（包括 CAGE、DNase、histone ChIP-seq 等），有效捕捉遠端調控元件（enhancers）的效應。與前代模型 Basenji2（dilated CNN）相比，Enformer 的長距離預測能力大幅提升。

Sei（Chen et al., Nature Genetics 2022）從序列預測 21,907 個染色質 profiles，用於非編碼變異的功能註釋。這些模型與 GWAS 結合，可以為非編碼風險位點提供機制性解釋。

藥物發現中的生成式 AI

分子生成模型經歷了從 RNN-based SMILES generation → VAE/GAN → diffusion models 的演進。DiffDock（Corso et al., ICLR 2023）使用 diffusion 模型進行分子對接（molecular docking），在 PDBBind benchmark 上超越傳統方法。RFdiffusion（Watson et al., Nature 2023）使用 RoseTTAFold 架構的 diffusion 模型從頭設計蛋白質結構，已成功設計出具有預期功能的新蛋白質。

挑戰與前沿

可解釋性：深度學習模型通常是「黑箱」。Attention visualization、SHAP values 和 integrated gradients 提供部分可解釋性，但離真正的機制理解還有距離。
數據偏差：訓練數據偏向已知蛋白質家族（PDB 中膜蛋白和非結構化蛋白質代表不足），模型在這些區域預測精度較差。
不確定性估計：AlphaFold 的 pLDDT 和 PAE 分數提供有限的不確定性估計，但全面的 Bayesian 不確定性量化仍是活躍研究方向。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

機器學習在生物資訊

生物資訊學 · 網路分析

難度 4 · 專業

有寫過的文章

X光與AI醫療應用:智慧眼科技術分析

睿生光電起家於薄膜電晶體的產品,以光電二極體基板進行感測、吸收可見光並且轉換成電荷儲存在電晶體當中。透過這樣的技術可以將物體的輪廓、以光線打入並結合閃爍體 (Scintillator)將X光轉換成可見光的形式記錄成X光片。因此,睿生光電的重要產品是X光的相關技術。近年來結合AI及智慧醫療平台的趨勢,睿生光電以不同單位合作開發的方式將X光感測應用到牙科、骨科,以及獸醫等不同場域。

醫影科技解析：從眼底鏡走向智慧醫療

晉弘科技從一開始在交大育成中心的小團體開發[眼底鏡](https://zh.wikipedia.org/wiki/眼底鏡)，逐漸走向智慧[遠距醫療](https://zh.wikipedia.org/wiki/遠距醫療)。第一代產品結合資通訊及醫學相關技術推出數位眼底鏡，解決了點[散瞳劑](https://zh.wikipedia.org/wiki/散瞳劑)造成不適的問題。接著再透過模組化、[邊緣運算](https://zh.wikipedia.org/wiki/邊緣運算)及AI建模，一步步擴大產品可應用性，最後觸及到偏鄉的遠距醫療及智慧醫療領域。

作者

喚 Juan

從生物科技跨到工程，現任生理訊號演算法工程師，也是不斷記錄生活與工作的創作者。我把實驗室、職場與諮詢現場的筆記整理成文章，陪你在探索與疑惑時有人同行。

希望每位白鷗在閱讀時，都能感受到穩定的陪伴，知道這些轉彎、期待與不安並不是一個人面對。

作品集連結

Logo 設計作品集平面設計作品集

白鷗電子報

贊助 · 社群

如果文章的內容對你有用，歡迎小額贊助！會給我很大鼓勵，讓我動力繼續創作下去！

贊助白鷗x喚加入社群