HMM 是序列分析中最重要的機率圖模型(probabilistic graphical model),提供了一個嚴謹的統計框架來處理序列標注和分類問題。
數學形式化
HMM 定義在有向圖上:隱藏變數 q_t ∈ {1,...,N} 形成一階 Markov 鏈,觀測變數 o_t 條件獨立於其他變數(給定 q_t)。聯合機率:P(O,Q|λ) = π_{q_1} ∏{t=2}^{T} a{q_{t-1},q_t} ∏{t=1}^{T} b{q_t}(o_t)。
Forward-Backward 演算法
前向變數 α_t(i) = P(o_1,...,o_t, q_t=i|λ),遞迴:α_t(j) = [Σ_i α_{t-1}(i) a_ij] b_j(o_t)。後向變數 β_t(i) = P(o_{t+1},...,o_T | q_t=i,λ)。狀態後驗 γ_t(i) = P(q_t=i|O,λ) = α_t(i)β_t(i)/P(O|λ)。轉移後驗 ξ_t(i,j) = α_t(i) a_ij b_j(o_{t+1}) β_{t+1}(j)/P(O|λ)。數值穩定性需使用 log-space 或 scaling 技巧。
Baum-Welch(EM)更新規則
â_ij = Σ_t ξ_t(i,j) / Σ_t γ_t(i),b̂j(k) = Σ{t:o_t=k} γ_t(j) / Σ_t γ_t(j)。保證似然函數單調遞增但只能收斂到局部最大值。
Generalized HMM (GHMM)
標準 HMM 中每個狀態發射一個符號。GHMM 允許狀態發射一段可變長度的子序列,更適合基因結構建模——外顯子長度變異大,標準 HMM 的幾何分布假設不合理。GenScan(Burge & Karlin, 1997)使用 semi-Markov 結構和顯式的長度分布,結合 position-specific 評分(如剪接位點的 weight matrix)。
與其他機率模型的關係
- Conditional Random Fields(CRF):判別式模型,直接建模 P(Q|O),避免 HMM 的獨立性假設(觀測之間條件獨立),在基因預測和 NER 中通常準確度更高
- Input-Output HMM:將外部特徵作為輸入影響轉移和發射機率
- 深度學習替代:BiLSTM-CRF 架構在序列標注中取代 HMM,但 HMM 的優勢在於機率框架的可解讀性和理論基礎
在基因體學中的系統性應用
ChromHMM(Ernst & Kellis, 2012, Nat Methods)使用多元 HMM 整合多種組蛋白修飾的 ChIP-seq 數據,自動發現染色質狀態(promoter、enhancer、heterochromatin 等)。ENCODE 和 Roadmap Epigenomics 計畫使用 ChromHMM 對數百種細胞類型進行表觀基因體註釋。Augustus 使用 GHMM 進行基因預測,整合 EST、蛋白質和 RNA-seq 等外部證據。
