HOOOS

除了FoldX,如何用深度学习方法快速评估ProteinMPNN突变体的结合力?

0 3 结构生信人 结合力预测深度学习
Apple

在蛋白质从头设计(De Novo Protein Design)或亲和力成熟(Affinity Maturation)的工作流中,ProteinMPNN 已经成为序列设计的标配工具。然而,ProteinMPNN 产生的候选序列往往成百上千,如何快速、准确地从中筛选出真正具有高结合力的突变体,是湿实验验证前的关键瓶颈。

传统的 FoldX 依赖半经验物理势场,虽然经典,但存在两大痛点:侧链重构和能量最小化过程极慢,难以应对万级的高通量筛选;且对骨架微小的刚性碰撞过于敏感,极易产生假阳性。

为了实现高通量的“秒级”筛选,目前学术界和工业界已经发展出多条基于深度学习(DL)的快速评估路线。以下是除 FoldX 之外,目前主流且实用的深度学习突变体结合力评估方法:


一、 基于逆折叠模型(Inverse Folding)的似然值打分(最快路线)

这类方法与 ProteinMPNN 同源。ProteinMPNN 本质上是一个条件生成模型,它输出的是在给定骨架下,某个残基是特定氨基酸的概率。因此,我们可以直接利用逆折叠模型的**对数似然值(Log-likelihood)困惑度(Perplexity)**作为结合力的代理指标。

1. ESM-IF1 / ProteinMPNN 本身

  • 原理:直接将突变后的序列送回 ProteinMPNN 或更强的逆折叠模型(如基于 GVP-GNN 的 ESM-IF1),计算该序列在复合物界面骨架下的评分。
  • 评估指标
    $$\Delta \text{Score} = \text{Score}{\text{mutant}} - \text{Score}{\text{WT}}$$
    若突变体的得分(或复合物界面的序列匹配概率)显著高于野生型(WT),则通常意味着该突变体在结构上更稳定、界面更兼容。
  • 特点
    • 速度:极快(单个突变体 < 0.1 秒)。
    • 优势:不需要预测突变后的三维结构,直接在原骨架上运行,完全规避了物理势场的空阻问题。
    • 局限:它反映的是“结构兼容性”而非直接的物理结合自由能($\Delta G$)。

二、 专门预测 $\Delta\Delta G$ 的图神经网络(GNN)与几何深度学习

这类方法直接以复合物的三维结构为输入,利用图神经网络提取界面微环境特征,直接输出突变引起的结合自由能变化($\Delta\Delta G$)。

2. GeoPPI

  • 原理:基于几何深度学习,利用自监督学习在大量无标注蛋白质结构上预训练。它能够捕获复杂的空间几何特征,并对突变前后的界面能量变化 $\Delta\Delta G$ 进行直接预测。
  • 特点
    • 速度:秒级。
    • 优势:在 SKEMPI 2.0 等蛋白质相互作用(PPI)突变数据集上表现出比 FoldX 更好的鲁棒性,特别擅长处理复杂的刚性界面。

3. DDG-Predictor / MutAtor

  • 原理:基于图注意力网络(GAT)或几何矢量感知器(GVP-GNN),将突变位点及其周围 8-10 Å 内的微环境建图,输入网络预测亲和力改变。
  • 特点
    • 优势:由于只关注突变局部区域,计算极其轻量,非常适合 ProteinMPNN 产生的大规模饱和突变筛查。

三、 基于蛋白质语言模型(PLM)的 Zero-shot 预测

如果不想依赖复杂的复合物三维结构,或者对初始对接结构的精度没有把握,可以使用无结构的大型蛋白质语言模型进行零样本(Zero-shot)突变效应预测。

4. ESM-1v / ESM-2

  • 原理:利用掩码语言模型(Masked Language Model)的边缘似然值(Masked Marginal Log-likelihoods)来评估突变。
  • 方法
    $$\Delta \text{LLR} = \log P(x_{\text{mut}} | \text{sequence}) - \log P(x_{\text{WT}} | \text{sequence})$$
  • 特点
    • 速度:纯序列输入,毫秒级。
    • 优势:完全不需要结构信息,能有效捕获协同进化信息和突变对整体稳定性的影响。
    • 局限:对界面特定接触(如氢键、盐桥的变化)不敏感,通常作为初筛的第一道过滤器。

四、 机器学习特征融合方法(兼顾速度与物理直觉)

这类方法虽然不是端到端的深度学习,但在实际工业管线中因极高的计算性价比而被广泛使用。

5. PremPS / MutaBind2

  • 原理:提取突变位点周围的深度学习表征(如 ESM 嵌入)、结合传统的物理特征(如溶剂可及表面积 SASA的变化、静电势变化、范德华力变化),通过随机森林(Random Forest)或梯度提升树(GBDT)进行回归预测。
  • 特点
    • 速度:< 5 秒/突变。
    • 优势:可解释性强。在计算突变引起的相互作用力改变(尤其是引入电荷或改变疏水性)时,结果非常稳健,且比纯 FoldX 更不易因局部原子碰撞而报错。

五、 高通量筛选管线(Pipeline)推荐

在实际的 AI 蛋白质设计项目中,单一方法往往存在局限。目前行业内普遍采用漏斗型(Funnel)多级筛选管线

  [ 10,000+ 突变体序列 (ProteinMPNN 生成) ]
                  │
                  ▼
【第一级:极速初筛】 ESM-1v / ESM-2 (序列级 Zero-shot)
  筛选指标:LLR score > 0 ; 耗时:~ 毫秒级/个
                  │  过滤掉 80% 明显破坏稳定性的序列
                  ▼
【第二级:骨架兼容筛选】 ESM-IF1 / ProteinMPNN 自打分
  筛选指标:Score / Perplexity 低于阈值 ; 耗时:~0.1秒/个
                  │  保留界面兼容性好的 Top 5%
                  ▼
【第三级:结合力精筛】 GeoPPI / PremPS / FoldX (并行化)
  筛选指标:预测 ΔΔG < -1.0 kcal/mol ; 耗时:~数秒/个
                  │  筛选出 Top 1% 的高置信度候选者
                  ▼
【第四级:终极验证】 ColabFold / AlphaFold-Multimer (预测复合物结构)
  筛选指标:结合界面 pLDDT > 80,iPAE < 10 Å,或用 PRODIGY 计算亲和力
                  │  挑选出最终 10~50 个突变体
                  ▼
            [ 送去湿实验验证 ]

总结建议:

  • 如果你追求最快的集成速度,直接在 ProteinMPNN 的输出脚本中加入 ESM-IF1 打分,不需要额外复杂的环境配置。
  • 如果你追求预测准确度(高相关性 $R^2$),推荐使用 GeoPPIPremPS,它们在公开的 PPI 突变体数据集上比传统 FoldX 具有更高的实验相关性。
  • 在最后一轮精选时,依然建议配合 ColabFold (AF-Multimer) 进行结构建模,通过观察界面相互作用的合理性(如氢键是否配对、是否有明显的空洞)做最后的人工把关。

点评评价

captcha
健康