大4 · 第1學期生物資訊學序列分析

隱馬可夫模型

Hidden Markov Models

難度 4 · 專業bioinformaticsstatistics

HMM 是序列分析中最重要的機率圖模型（probabilistic graphical model），提供了一個嚴謹的統計框架來處理序列標注和分類問題。

數學形式化

HMM 定義在有向圖上：隱藏變數 q_t ∈ {1,...,N} 形成一階 Markov 鏈，觀測變數 o_t 條件獨立於其他變數（給定 q_t）。聯合機率：P(O,Q|λ) = π_{q_1} ∏{t=2}^{T} a{q_{t-1},q_t} ∏{t=1}^{T} b{q_t}(o_t)。

Forward-Backward 演算法

前向變數 α_t(i) = P(o_1,...,o_t, q_t=i|λ)，遞迴：α_t(j) = [Σ_i α_{t-1}(i) a_ij] b_j(o_t)。後向變數 β_t(i) = P(o_{t+1},...,o_T | q_t=i,λ)。狀態後驗 γ_t(i) = P(q_t=i|O,λ) = α_t(i)β_t(i)/P(O|λ)。轉移後驗 ξ_t(i,j) = α_t(i) a_ij b_j(o_{t+1}) β_{t+1}(j)/P(O|λ)。數值穩定性需使用 log-space 或 scaling 技巧。

Baum-Welch（EM）更新規則

â_ij = Σ_t ξ_t(i,j) / Σ_t γ_t(i)，b̂j(k) = Σ{t:o_t=k} γ_t(j) / Σ_t γ_t(j)。保證似然函數單調遞增但只能收斂到局部最大值。

Generalized HMM (GHMM)

標準 HMM 中每個狀態發射一個符號。GHMM 允許狀態發射一段可變長度的子序列，更適合基因結構建模——外顯子長度變異大，標準 HMM 的幾何分布假設不合理。GenScan（Burge & Karlin, 1997）使用 semi-Markov 結構和顯式的長度分布，結合 position-specific 評分（如剪接位點的 weight matrix）。

與其他機率模型的關係

Conditional Random Fields（CRF）：判別式模型，直接建模 P(Q|O)，避免 HMM 的獨立性假設（觀測之間條件獨立），在基因預測和 NER 中通常準確度更高
Input-Output HMM：將外部特徵作為輸入影響轉移和發射機率
深度學習替代：BiLSTM-CRF 架構在序列標注中取代 HMM，但 HMM 的優勢在於機率框架的可解讀性和理論基礎

在基因體學中的系統性應用

ChromHMM（Ernst & Kellis, 2012, Nat Methods）使用多元 HMM 整合多種組蛋白修飾的 ChIP-seq 數據，自動發現染色質狀態（promoter、enhancer、heterochromatin 等）。ENCODE 和 Roadmap Epigenomics 計畫使用 ChromHMM 對數百種細胞類型進行表觀基因體註釋。Augustus 使用 GHMM 進行基因預測，整合 EST、蛋白質和 RNA-seq 等外部證據。

互動工具

動手玩玩看

用互動元件直接感受這個概念，比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關

↑ 先搞懂這些

基序搜尋

生物資訊學 · 序列分析

難度 3 · 進階