跳至主要內容
1 · 第2學期生物統計數據視覺化

熱圖

Heatmaps

難度 2 · 基礎statisticsbioinformatics想做成互動版

熱力圖的統計基礎涉及聚類演算法的數學性質、最佳排序問題和高維視覺化理論。

階層式聚類的數學性質

Agglomerative clustering 以 Lance-Williams recurrence 統一所有 linkage methods:d(A∪B, C) = αₐd(AC) + α_bd(BC) + βd(AB) + γ|d(AC)−d(BC)|。Ward's method 最小化合併後的 total within-cluster variance:Δ(A,B) = nₐnᵦ/(nₐ+nᵦ) · ‖x̄ₐ−x̄ᵦ‖²。Ultrametric property:任何三點 d(A,C) ≤ max(d(A,B), d(B,C)) 保證 dendrogram 的唯一性(Johnson, 1967, Psychometrika)。

最佳葉序排列(Optimal Leaf Ordering)

dendrogram 的 n 個葉片有 2^(n−1) 種排列保持結構不變。Bar-Joseph et al.(2001, Bioinformatics)提出 O(n³) 動態規劃演算法,使相鄰葉片的距離和最小。此排列顯著提升視覺可讀性。

色彩映射的感知理論

均勻感知色階(perceptually uniform):CIE Lab 色彩空間中等距色彩在人眼感知中也等距。Rainbow/jet 色階因非均勻感知而被批評(Borland & Taylor, 2007, IEEE CG&A)。viridis(Smith & van der Walt, 2015)在 luminance 上單調遞增。發散色階以白色中心對應零值,利用 opponent color theory。

Biclustering 演算法

Cheng & Church(2000, ISMB):找到最大子矩陣使 mean squared residue ≤ δ。Spectral biclustering(Kluger et al., 2003, Genome Res)以 SVD 分解 normalized data matrix 找 checkerboard 結構。Bayesian biclustering(Caldas & Kaski, 2008)估計模塊數和結構。在 cancer genomics 中以 NMF(Non-negative Matrix Factorization, Brunet et al., 2004, PNAS)分解表現矩陣為 metagenes × coefficients。

ComplexHeatmap 的統計框架

Gu, Eils & Schlesner(2016, Bioinformatics):支持任意組合多個 heatmap 和 annotation tracks。OncoPrint 視覺化 mutation landscape。以 R/Bioconductor 整合 EnrichedHeatmap(ChIP-seq signal at genomic features)。

大規模資料的挑戰

n > 10,000 行時,pixel resolution 限制可辨識的模式。解決方案:k-medoids 先群集再以代表行繪製;interactive heatmap(如 plotly/d3-heatmap)支持 zoom。Seriation package(Hahsler et al., 2008, J Stat Softw)提供多種矩陣重排方法。

文獻參考:Bar-Joseph, Z. et al. (2001). Bioinformatics, 17 Suppl 1, S22-29. / Brunet, J.-P. et al. (2004). PNAS, 101, 4164-4169. / Gu, Z. et al. (2016). Bioinformatics, 32, 2847-2849.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關