跳至主要內容
4 · 第1學期生物資訊學網路分析

機器學習在生物資訊

Machine Learning in Bioinformatics

難度 4 · 專業bioinformaticscomputer-science想做成互動版

機器學習在生物資訊學中的應用已從輔助分析工具演變為驅動發現的核心方法論。以下從演算法選擇、生物學特有的方法學挑戰和前沿應用三個維度進行深入討論。

演算法選擇的考量

不同的生物資訊學問題需要不同的 ML 策略。Greener et al.(2022, Nature Reviews Molecular Cell Biology)系統綜述了生物學中 ML 的最佳實踐:

表格數據(tabular data):基因表現矩陣、臨床特徵等結構化數據。梯度提升樹(XGBoost, LightGBM)在中小規模表格數據上通常優於深度學習(Grinsztajn et al., 2022, NeurIPS)。隨機森林提供直觀的特徵重要性排序,在基因篩選中廣泛使用。

序列數據:DNA/RNA/蛋白質序列。一維卷積神經網路(1D-CNN)擅長偵測序列 motif。Transformer 架構(self-attention 機制)可捕捉長距離依賴關係——蛋白質語言模型(ESM-2, ProtTrans)和基因組模型(Enformer, Nucleotide Transformer)已成為序列分析的 foundation model。

圖結構數據:分子圖(原子為節點、鍵為邊)、蛋白質互動網路、基因調控網路。圖神經網路(GNN, 包括 GCN、GAT、MPNN)可直接在圖結構上運算。Gilmer et al.(2017, ICML, Message Passing Neural Networks)建立了分子性質預測的 GNN 框架。

影像數據:醫學影像、顯微鏡影像、蛋白質結構的密度圖。CNN(ResNet、U-Net)是標準選擇;Vision Transformer(ViT)在大數據集上表現強勁。

生物資訊學特有的方法學挑戰

  1. 小樣本問題(Small Sample Size)
    基因組研究常面臨「維度詛咒」——特徵數(>20,000 genes)遠超樣本數(通常 <1,000)。緩解策略:特徵選擇(LASSO、elastic net)、transfer learning(在大規模數據上預訓練,在目標任務上微調)和 few-shot learning。

  2. 類別不平衡(Class Imbalance)
    致病變異遠少於正常變異,疾病樣本少於正常樣本。處理方法:SMOTE(合成少數類過採樣)、class weighting、focal loss 和 anomaly detection 框架。

  3. 數據洩漏(Data Leakage)
    生物序列間的同源性導致訓練集和測試集不獨立。Jaeger et al.(2024, Nature Methods)系統分析了蛋白質 ML 基準測試中的同源性洩漏問題——如果訓練集中包含測試集序列的同源蛋白,表現會被嚴重高估。正確的做法是基於序列相似度進行數據拆分(如 <30% sequence identity cutoff)。

  4. 可解釋性(Interpretability)
    生物學家不只需要預測結果,更需要理解機制。

    • 注意力權重(Attention Weights):可視化 Transformer 模型「關注」的序列位置,但 Jain & Wallace(2019, NAACL)指出 attention 不等於解釋。
    • SHAP(SHapley Additive exPlanations):Lundberg & Lee(2017, NeurIPS)基於 Shapley 值的統一解釋框架,為每個特徵分配貢獻分數。
    • Integrated Gradients:Sundararajan et al.(2017, ICML)的梯度路徑積分方法,為輸入特徵的貢獻提供公理化的歸因。

前沿應用

基礎模型(Foundation Models)在生物學中的興起

  • scGPT(Cui et al., 2024, Nature Methods):在超過 3,300 萬個單細胞轉錄組上預訓練的基礎模型,透過自監督學習捕捉基因-基因互動和細胞狀態,可微調用於細胞類型註釋、基因擾動預測和多批次整合。
  • Geneformer(Theodoris et al., 2023, Nature):在約 3,000 萬個單細胞上預訓練的 Transformer 模型,學習到基因的「上下文」表達模式,用於預測心臟病的治療靶點和基因調控網路
  • AlphaFold 2/3ESM-2/ESMFold:蛋白質的基礎模型,已深刻影響結構生物學和藥物發現工作流程。

因果機器學習(Causal ML)
傳統 ML 學習相關性,但生物學家更關心因果關係。結合 Pearl 的 SCM 框架和 ML 的因果推斷方法正在發展:Conditional Average Treatment Effect(CATE)估計、instrumental variable 方法和 causal discovery 演算法(PC, GES, NOTEARS)在基因調控網路推斷中展現潛力。

主動學習(Active Learning)
藥物發現中,實驗成本高昂。Active learning 策略選擇最有資訊價值的實驗進行,最大化每次實驗的學習效率。Bayesian optimization 是最常用的框架,已被 Evo Design 和 directed evolution 工作流程採用。

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

有寫過的文章

rPPG技術解析:用影像量測生理訊號的新思維

攝影機也能「看見」你的心跳?這篇文章帶你從 rPPG(遠程光學生理訊號)理解影像如何轉換成生理訊號。從光學反射、訊號濾波到演算法拆解,用淺白文字揭開生醫技術的跨領域邏輯。

【高中版】生醫訊號工程師技能樹:跨領域的8大核心能力

想成為生醫訊號工程師?從生理學到AI,這8個技能缺一不可。

8個生理訊號工程師要知道的學習技能

隨著生醫技術的飛速發展, 生醫訊號 (Biomedical Signals)已成為生命科學和醫療領域中不可或缺的一部分。 從心電圖(ECG)、腦電圖(EEG)(有興趣可以看腦機介面,這篇有更詳細介紹)到肌電圖(EMG),生理訊號提供了人體內部運作的實際數據,使我們能夠在生活、醫療保健上更加了解人體或自身的健康狀況。無論是在研究、臨床應用,還是智慧居家設備中,處理與分析這些訊號都需要多學科知識的整合。 本文將介紹一個完整的 跨領域生理與訊…

【高中版】生科轉職生理訊號工程師:過來人的3個實戰建議

從生科到工程師不是不可能。過來人分享作品集、面試、技能提升的三大關鍵。

【國中版】什麼是「轉職」?生物系畢業也能當工程師?

轉職就是換一個完全不同的工作。有人學生物卻去當了工程師,他是怎麼做到的?

生科轉職生理訊號工程師:過來人的 3 個建議

身為過來人,了解在就學期間對生科出路未來的迷茫以及無助感。就算能夠上網找資料知道出路可能可以如何發展,但是對於產業、跨領域心路歷程以及實際工作內容、需要的能力並沒有完整且直接的資源可以參考。 因此想要透過自己的力量訪談一些從生科跨到不同領域的人的心路歷程,並且再將這些跨領域人才的談話的內容整理、擴充、理解後撰寫成文章。包含工作內容如何應用跨領域的知識、跨領域遇到的困難或分享一些有趣的故事等。 這篇是生理訊號工程師的最後一篇,裡面提到一些…