跳至主要內容
1 · 第2學期生物統計數據視覺化

箱形圖與小提琴圖

Box Plots and Violin Plots

難度 1 · 入門statistics想做成互動版

箱形圖的統計理論根基在於 order statistics 和 robust scale estimation,現代延伸涵蓋高維和函數型數據。

理論基礎:Order Statistics

Q1 和 Q3 是 order statistics X₍⌈n/4⌉₎ 和 X₍⌈3n/4⌉₎。任何 order statistic X₍ₖ₎ 的漸近分布:√n(X₍ₖ₎ − ξₚ) → N(0, p(1−p)/f(ξₚ)²),p = k/n(Serfling, 1980)。IQR 的漸近方差結合了兩個 order statistics 的 joint asymptotic 理論。

離群值偵測的統計基礎

Tukey's 1.5·IQR rule(Tukey, 1977, Exploratory Data Analysis):在常態分布下,Q1 − 1.5·IQR 和 Q3 + 1.5·IQR 約涵蓋 99.3% 的資料。「極端離群值」以 3·IQR 為界(涵蓋 99.998%)。此規則的 breakdown point 為 25%。

Adjusted boxplot for skewed data

Hubert & Vandervieren(2008, Comput Stat Data Anal):以 medcouple(MC)修正 fence:[Q1 − 1.5·exp(a·MC)·IQR, Q3 + 1.5·exp(b·MC)·IQR]。MC 是一個 robust skewness measure,breakdown point = 25%。解決偏態資料中標準 boxplot 過度標記離群值的問題。

Bagplot(二維箱形圖)

Rousseeuw, Ruts & Tukey(1999, Am Stat):以 halfspace depth 推廣箱形圖到二維。中心 = Tukey median;bag = 包含 50% 深度最大點的凸包;fence 以放大係數 3 決定離群值。

Functional boxplot

Sun & Genton(2011, J Comput Graph Stat):以 band depth 或 modified band depth 排序函數資料。中位數曲線 = 最深的函數;envelope = 中心 50% 的函數範圍。在 longitudinal biomarker 資料(如生長曲線、EEG signal)中揭示群體趨勢和異常個體。

Letter-value plot

Hofmann, Wickham & Kafadar(2017, J Comput Graph Stat):以 letter values(除了四分位還有八分位、十六分位…)取代鬍鬚,在大數據中提供更多分布細節。解決 n > 10000 時離群值過多的問題。

文獻參考:Tukey, J.W. (1977). Exploratory Data Analysis. Addison-Wesley. / Hubert, M. & Vandervieren, E. (2008). Comput Stat Data Anal, 52, 5186-5201. / Hofmann, H. et al. (2017). J Comput Graph Stat, 26, 469-477.

互動工具

動手玩玩看

用互動元件直接感受這個概念,比純文字快 10 倍搞懂。三個 tier 共用同一個工具。

這個和什麼有關