人類基因體作為分子生物學和醫學基因體學的基礎參考框架,其完整解析開啟了後基因體時代的系統性功能研究。
人類基因體計畫與技術演進
HGP(1990–2003)以分層鳥槍法(hierarchical shotgun)完成草圖(Lander et al., 2001)和精細圖(International Human Genome Sequencing Consortium, 2004)。Celera 的全基因體鳥槍法(Venter et al., 2001)展示了替代策略的可行性。次世代定序(NGS)技術使個人基因體定序成本從 HGP 時代的 ~30 億美元降至 2024 年的 < 200 美元(NHGRI Genome Sequencing Cost Tracking)。
基因體結構與功能註釋
蛋白質編碼基因約 19,969 個(GENCODE v44),佔基因體 ~1.5%。ENCODE 計畫(ENCODE Project Consortium, 2012)系統性鑑定了順式調控元件(cis-regulatory elements),發現 ~80% 的基因體在至少一種細胞類型中展現生化活性(如組蛋白修飾、轉錄因子結合或開放染色質),但「功能性」的定義引發激烈辯論(Graur et al., 2013; Kellis et al., 2014)。重複序列佔基因體 ~45%:LINE-1(~17%)和 Alu(SINE, ~11%)為最主要的轉位子家族,部分仍具轉位活性,可造成插入突變和基因體結構重排。
Telomere-to-Telomere(T2T)完整基因體
Nurk et al.(2022)利用 PacBio HiFi 和 Oxford Nanopore 超長讀序完成了第一個無缺口人類基因體(T2T-CHM13),新增約 2 億個鹼基對序列(主要為著絲粒衛星 DNA 和短臂 rDNA 陣列),新鑑定了 ~2,000 個基因(含蛋白質編碼和非編碼),修正了多處錯誤組裝。人類泛基因體參考(HPRC, Liao et al., 2023)進一步整合多族群的單倍型解析基因體,揭示先前被隱藏的結構變異。
臨床與精準醫學應用
全基因體關聯研究(GWAS)已鑑定數萬個疾病關聯位點,但多數位於非編碼區,功能機制的闡明仍為挑戰。多基因風險分數(PRS, Khera et al., 2018)整合大量微效位點預測疾病風險,但跨族群的可轉移性受限於訓練數據的祖源偏差。藥物基因體學(pharmacogenomics)利用基因體變異指導用藥選擇和劑量調整,如 CYP2D6 多型性影響鴉片類藥物代謝。
