大4 · 第1學期生物資訊學網路分析

機器學習在生物資訊

Machine Learning in Bioinformatics

難度 4 · 專業bioinformaticscomputer-science想做成互動版

機器學習在生物資訊學中的應用已從輔助分析工具演變為驅動發現的核心方法論。以下從演算法選擇、生物學特有的方法學挑戰和前沿應用三個維度進行深入討論。

演算法選擇的考量

不同的生物資訊學問題需要不同的 ML 策略。Greener et al.（2022, Nature Reviews Molecular Cell Biology）系統綜述了生物學中 ML 的最佳實踐：

表格數據（tabular data）：基因表現矩陣、臨床特徵等結構化數據。梯度提升樹（XGBoost, LightGBM）在中小規模表格數據上通常優於深度學習（Grinsztajn et al., 2022, NeurIPS）。隨機森林提供直觀的特徵重要性排序，在基因篩選中廣泛使用。

序列數據：DNA/RNA/蛋白質序列。一維卷積神經網路（1D-CNN）擅長偵測序列 motif。Transformer 架構（self-attention 機制）可捕捉長距離依賴關係——蛋白質語言模型（ESM-2, ProtTrans）和基因組模型（Enformer, Nucleotide Transformer）已成為序列分析的 foundation model。

圖結構數據：分子圖（原子為節點、鍵為邊）、蛋白質互動網路、基因調控網路。圖神經網路（GNN, 包括 GCN、GAT、MPNN）可直接在圖結構上運算。Gilmer et al.（2017, ICML, Message Passing Neural Networks）建立了分子性質預測的 GNN 框架。

影像數據：醫學影像、顯微鏡影像、蛋白質結構的密度圖。CNN（ResNet、U-Net）是標準選擇；Vision Transformer（ViT）在大數據集上表現強勁。

生物資訊學特有的方法學挑戰

小樣本問題（Small Sample Size）：
基因組研究常面臨「維度詛咒」——特徵數（>20,000 genes）遠超樣本數（通常 <1,000）。緩解策略：特徵選擇（LASSO、elastic net）、transfer learning（在大規模數據上預訓練，在目標任務上微調）和 few-shot learning。
類別不平衡（Class Imbalance）：
致病變異遠少於正常變異，疾病樣本少於正常樣本。處理方法：SMOTE（合成少數類過採樣）、class weighting、focal loss 和 anomaly detection 框架。
數據洩漏（Data Leakage）：
生物序列間的同源性導致訓練集和測試集不獨立。Jaeger et al.（2024, Nature Methods）系統分析了蛋白質 ML 基準測試中的同源性洩漏問題——如果訓練集中包含測試集序列的同源蛋白，表現會被嚴重高估。正確的做法是基於序列相似度進行數據拆分（如 <30% sequence identity cutoff）。
可解釋性（Interpretability）：
生物學家不只需要預測結果，更需要理解機制。
- 注意力權重（Attention Weights）：可視化 Transformer 模型「關注」的序列位置，但 Jain & Wallace（2019, NAACL）指出 attention 不等於解釋。
- SHAP（SHapley Additive exPlanations）：Lundberg & Lee（2017, NeurIPS）基於 Shapley 值的統一解釋框架，為每個特徵分配貢獻分數。
- Integrated Gradients：Sundararajan et al.（2017, ICML）的梯度路徑積分方法，為輸入特徵的貢獻提供公理化的歸因。

前沿應用

基礎模型（Foundation Models）在生物學中的興起：

scGPT（Cui et al., 2024, Nature Methods）：在超過 3,300 萬個單細胞轉錄組上預訓練的基礎模型，透過自監督學習捕捉基因-基因互動和細胞狀態，可微調用於細胞類型註釋、基因擾動預測和多批次整合。
Geneformer（Theodoris et al., 2023, Nature）：在約 3,000 萬個單細胞上預訓練的 Transformer 模型，學習到基因的「上下文」表達模式，用於預測心臟病的治療靶點和基因調控網路。
AlphaFold 2/3 和 ESM-2/ESMFold：蛋白質的基礎模型，已深刻影響結構生物學和藥物發現工作流程。

因果機器學習（Causal ML）：
傳統 ML 學習相關性，但生物學家更關心因果關係。結合 Pearl 的 SCM 框架和 ML 的因果推斷方法正在發展：Conditional Average Treatment Effect（CATE）估計、instrumental variable 方法和 causal discovery 演算法（PC, GES, NOTEARS）在基因調控網路推斷中展現潛力。

主動學習（Active Learning）：
在藥物發現中，實驗成本高昂。Active learning 策略選擇最有資訊價值的實驗進行，最大化每次實驗的學習效率。Bayesian optimization 是最常用的框架，已被 Evo Design 和 directed evolution 工作流程採用。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

邏輯回歸

生物統計 · 回歸分析

難度 3 · 進階

統計模型

生物資訊學 · 網路分析

難度 4 · 專業

↔ 別科也有用到

計算模擬

系統生物學 · 數學建模

難度 4 · 專業

有寫過的文章

rPPG技術解析：用影像量測生理訊號的新思維

攝影機也能「看見」你的心跳？這篇文章帶你從 rPPG（遠程光學生理訊號）理解影像如何轉換成生理訊號。從光學反射、訊號濾波到演算法拆解，用淺白文字揭開生醫技術的跨領域邏輯。

8個生理訊號工程師要知道的學習技能

隨著生醫技術的飛速發展，生醫訊號（Biomedical Signals）已成為生命科學和醫療領域中不可或缺的一部分。從心電圖（ECG）、腦電圖（EEG）（有興趣可以看腦機介面，這篇有更詳細介紹）到肌電圖（EMG），生理訊號提供了人體內部運作的實際數據，使我們能夠在生活、醫療保健上更加了解人體或自身的健康狀況。無論是在研究、臨床應用，還是智慧居家設備中，處理與分析這些訊號都需要多學科知識的整合。本文將介紹一個完整的跨領域生理與訊…

生科轉職生理訊號工程師：過來人的 3 個建議

身為過來人，了解在就學期間對生科出路未來的迷茫以及無助感。就算能夠上網找資料知道出路可能可以如何發展，但是對於產業、跨領域心路歷程以及實際工作內容、需要的能力並沒有完整且直接的資源可以參考。因此想要透過自己的力量訪談一些從生科跨到不同領域的人的心路歷程，並且再將這些跨領域人才的談話的內容整理、擴充、理解後撰寫成文章。包含工作內容如何應用跨領域的知識、跨領域遇到的困難或分享一些有趣的故事等。這篇是生理訊號工程師的最後一篇，裡面提到一些…

生科轉生理訊號工程師：職場發展完整分析

身為過來人，了解在就學期間對生科出路未來的迷茫以及無助感。就算能夠上網找資料知道出路可能可以如何發展，但是對於產業、跨領域心路歷程以及實際工作內容、需要的能力並沒有完整且直接的資源可以參考。因此想要透過自己的力量訪談一些從生科跨到不同領域的人的心路歷程，並且再將這些跨領域人才的談話的內容整理、擴充、理解後撰寫成文章。包含工作內容如何應用跨領域的知識、跨領域遇到的困難或分享一些有趣的故事等。本篇是以職場應用為主，了解生理訊號工程師的工…

生醫訊號工程師怎麼入門？生科背景轉職的真實問答

相信會點進來了解的你也是生科或者生醫相關領域的人，總是有個想要回饋社會的夢想跟抱負，卻不知道怎麼樣才是適合自己的道路。本篇是紀錄小白鷗的問題，以及喚對於問題的統整以及回覆。如果你也有相關的問題與煩惱，歡迎在文章最下方聯絡信箱留言，或者私訊IG小盒子與我互動! 如果你第一次看到我的文章，歡迎訂閱我的電子報，會陸續更新國中、高中的生物課內內容、筆記重點整理以及大學研究所上遇到的種種乃至於畢業、找工作、談薪水等職涯規劃，以及每周一篇的新知…

X光與AI醫療應用:智慧眼科技術分析

睿生光電起家於薄膜電晶體的產品,以光電二極體基板進行感測、吸收可見光並且轉換成電荷儲存在電晶體當中。透過這樣的技術可以將物體的輪廓、以光線打入並結合閃爍體 (Scintillator)將X光轉換成可見光的形式記錄成X光片。因此,睿生光電的重要產品是X光的相關技術。近年來結合AI及智慧醫療平台的趨勢,睿生光電以不同單位合作開發的方式將X光感測應用到牙科、骨科,以及獸醫等不同場域。

作者

喚 Juan

從生物科技跨到工程，現任生理訊號演算法工程師，也是不斷記錄生活與工作的創作者。我把實驗室、職場與諮詢現場的筆記整理成文章，陪你在探索與疑惑時有人同行。

希望每位白鷗在閱讀時，都能感受到穩定的陪伴，知道這些轉彎、期待與不安並不是一個人面對。

作品集連結

Logo 設計作品集平面設計作品集

白鷗電子報

贊助 · 社群

如果文章的內容對你有用，歡迎小額贊助！會給我很大鼓勵，讓我動力繼續創作下去！

贊助白鷗x喚加入社群