定向演化的理論框架、連續演化平台與計算-實驗整合策略構成蛋白質工程的核心方法論。
適應性地景(Fitness Landscape)理論
Wright(1932)的 fitness landscape 概念:蛋白質序列空間中每個點有一個 fitness 值,形成高維地景。定向演化的策略取決於地景拓撲:
- Single-peak(Mount Fuji):任何改善突變都能到達頂峰 → greedy hill-climbing(epPCR + screen)有效。
- Rugged(多峰):局部最優陷阱 → 需要 recombination(DNA shuffling)跳過山谷或 neutral drift 穿越稜線。
- Epistasis:突變間的非加成交互作用造成地景崎嶇。Starr et al.(2022, Nature)在 SARS-CoV-2 RBD 的 DMS(deep mutational scanning)中量化了大規模 epistasis。
PACE 的工程細節
PACE 使用 chemostat-fed lagoon:宿主 E. coli 以 ~1 volume/hr 流速持續供應(稀釋率 > E. coli 分裂率,但 < 噬菌體複製率)→ 只有噬菌體在 lagoon 中保留,宿主持續被沖走並補充。噬菌體基因組上缺失 gIII(pIII),由「activity-dependent accessory plasmid」(AP)補充:目標蛋白的功能 → 活化 AP 上的 gIII 表現 → 產生感染性噬菌體。mutation rate 由「mutagenesis plasmid」(MP)控制(提升 base substitution rate ~100×)。
PACE 已成功演化:T7 RNAP promoter specificity(Esvelt et al., 2011)、ABE deaminase(Gaudelli et al., 2017)、Cas9 PAM compatibility(Miller et al., 2020)、prime editor(Chen & Liu, 2023)。
Deep Mutational Scanning (DMS)
Fowler & Fields(2014, Nat Methods)系統化:在目標蛋白每個位置分別突變為所有 19 種其他胺基酸 → 以高通量 NGS 讀取突變體在選擇壓力前後的頻率變化 → 產生完整的 mutation→fitness map。DMS 數據可:(1) 揭示功能關鍵殘基、(2) 訓練 ML 模型預測 higher-order combinations、(3) 預測病毒變異株的 immune escape(如 Cao et al., 2022 for SARS-CoV-2 Omicron)。
蛋白質語言模型(Protein Language Models)
ESM-2(Lin et al., 2023, Science)、ProtTrans、AlphaFold2 等大型預訓練模型以 >200M 蛋白質序列學習 evolutionary fitness landscape 的隱含表示。zero-shot prediction:以 masked language model likelihood 預測突變的 fitness effect(ESM-1v, Meier et al., 2021),無需任何實驗數據即可達到與 DMS-trained supervised model 相當的預測精度。此方法正在革新定向演化的設計輪(design round),從「隨機探索」轉為「ML-guided navigation」。
非天然催化活性
Arnold lab 系列工作突破了酵素催化的邊界:
- Carbene transfer:P450-BM3 variant 催化 cyclopropanation(Coelho et al., 2013, Science)
- C–Si bond:Kan et al.(2016, Science)演化出能形成碳-矽鍵的 cytochrome c
- C–B bond:Kan et al.(2017, Nature)——自然界中不存在的化學鍵
- 這些「新到舊」(new-to-nature)反應展示了定向演化在綠色化學中的巨大潛力。
文獻參考:Arnold, F.H. (1998). Acc Chem Res, 31, 125-131. / Esvelt, K.M. et al. (2011). Nature, 472, 499-503. / Savile, C.K. et al. (2010). Science, 329, 305-309. / Fowler, D.M. & Fields, S. (2014). Nat Methods, 11, 801-807.
