跳至主要內容
1 · 第2學期生物統計回歸分析

聚類分析

Cluster Analysis

難度 3 · 進階statisticsbioinformatics想做成互動版

聚類分析的理論基礎涉及最佳化、概率模型和高維挑戰。

K-Means 的理論與改良

K-Means 等價於最小化 WCSS 的 NP-hard 組合最佳化。Lloyd (1982) 演算法只保證局部最優。Arthur & Vassilvitskii (2007) 的 k-means++ 初始化保證期望 WCSS ≤ 8(ln k + 2) × OPT。Mini-batch K-Means(Sculley, 2010)以隨機子集更新中心,適合大數據。

高斯混合模型(GMM)

軟分配的概率版 K-Means:假設數據來自 K 個高斯分布的混合。EM 演算法:E-step 計算後驗隸屬機率 γₖᵢ = πₖN(xᵢ|μₖ,Σₖ)/Σⱼ πⱼN(xᵢ|μⱼ,Σⱼ),M-step 更新 μₖ、Σₖ、πₖ。BIC 選擇成分數 K 和共變異結構(spherical, diagonal, full)。mclust R package(Scrucca et al., 2016)自動化此流程。

譜聚類(Spectral Clustering)

建構相似度圖的 Laplacian L = D − W,以 L 的前 K 個特徵向量進行 K-Means。能處理非凸群組(如同心圓),理論基於 Normalized Cut(Shi & Malik, 2000)。適合單細胞轉錄組的細胞類型發現。

共識聚類(Consensus Clustering)

Monti et al.(2003):反覆子採樣 + 聚類,以共識矩陣(Consensus Matrix)衡量兩個樣本被分到同一群的比例。CDF(Cumulative Distribution Function)曲線的穩定性指導 K 的選擇。GenePattern 和 ConsensusClusterPlus R package 是常用工具。在癌症分子亞型發現(如 TCGA 計畫)中廣泛使用。

scRNA-seq 的聚類工作流程

標準流程:quality control → normalization → HVG selection → PCA → batch correction (Harmony/scVI) → KNN graph → community detection(Louvain / Leiden algorithm)→ UMAP visualization。Leiden algorithm(Traag et al., 2019)以 modularity optimization 進行圖切割,比 Louvain 更穩定。resolution 參數控制群數的精細度。

文獻參考:Arthur, D. & Vassilvitskii, S. (2007). SODA, 1027-1035. / Monti, S. et al. (2003). Machine Learning, 52, 91-118. / Traag, V.A. et al. (2019). Sci Rep, 9, 5233.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關