除了FoldX，如何用深度学习方法快速评估ProteinMPNN突变体的结合力？

在蛋白质从头设计（De Novo Protein Design）或亲和力成熟（Affinity Maturation）的工作流中，ProteinMPNN 已经成为序列设计的标配工具。然而，ProteinMPNN 产生的候选序列往往成百上千，如何快速、准确地从中筛选出真正具有高结合力的突变体，是湿实验验证前的关键瓶颈。

传统的 FoldX 依赖半经验物理势场，虽然经典，但存在两大痛点：侧链重构和能量最小化过程极慢，难以应对万级的高通量筛选；且对骨架微小的刚性碰撞过于敏感，极易产生假阳性。

为了实现高通量的“秒级”筛选，目前学术界和工业界已经发展出多条基于深度学习（DL）的快速评估路线。以下是除 FoldX 之外，目前主流且实用的深度学习突变体结合力评估方法：

一、基于逆折叠模型（Inverse Folding）的似然值打分（最快路线）

这类方法与 ProteinMPNN 同源。ProteinMPNN 本质上是一个条件生成模型，它输出的是在给定骨架下，某个残基是特定氨基酸的概率。因此，我们可以直接利用逆折叠模型的**对数似然值（Log-likelihood）或困惑度（Perplexity）**作为结合力的代理指标。

1. ESM-IF1 / ProteinMPNN 本身

原理：直接将突变后的序列送回 ProteinMPNN 或更强的逆折叠模型（如基于 GVP-GNN 的 ESM-IF1），计算该序列在复合物界面骨架下的评分。
评估指标：
$$\Delta \text{Score} = \text{Score}{\text{mutant}} - \text{Score}{\text{WT}}$$
若突变体的得分（或复合物界面的序列匹配概率）显著高于野生型（WT），则通常意味着该突变体在结构上更稳定、界面更兼容。
特点：
- 速度：极快（单个突变体 < 0.1 秒）。
- 优势：不需要预测突变后的三维结构，直接在原骨架上运行，完全规避了物理势场的空阻问题。
- 局限：它反映的是“结构兼容性”而非直接的物理结合自由能（$\Delta G$）。

二、专门预测 $\Delta\Delta G$ 的图神经网络（GNN）与几何深度学习

这类方法直接以复合物的三维结构为输入，利用图神经网络提取界面微环境特征，直接输出突变引起的结合自由能变化（$\Delta\Delta G$）。

2. GeoPPI

原理：基于几何深度学习，利用自监督学习在大量无标注蛋白质结构上预训练。它能够捕获复杂的空间几何特征，并对突变前后的界面能量变化 $\Delta\Delta G$ 进行直接预测。
特点：
- 速度：秒级。
- 优势：在 SKEMPI 2.0 等蛋白质相互作用（PPI）突变数据集上表现出比 FoldX 更好的鲁棒性，特别擅长处理复杂的刚性界面。

3. DDG-Predictor / MutAtor

原理：基于图注意力网络（GAT）或几何矢量感知器（GVP-GNN），将突变位点及其周围 8-10 Å 内的微环境建图，输入网络预测亲和力改变。
特点：
- 优势：由于只关注突变局部区域，计算极其轻量，非常适合 ProteinMPNN 产生的大规模饱和突变筛查。

三、基于蛋白质语言模型（PLM）的 Zero-shot 预测

如果不想依赖复杂的复合物三维结构，或者对初始对接结构的精度没有把握，可以使用无结构的大型蛋白质语言模型进行零样本（Zero-shot）突变效应预测。

4. ESM-1v / ESM-2

原理：利用掩码语言模型（Masked Language Model）的边缘似然值（Masked Marginal Log-likelihoods）来评估突变。
方法：
$$\Delta \text{LLR} = \log P(x_{\text{mut}} | \text{sequence}) - \log P(x_{\text{WT}} | \text{sequence})$$
特点：
- 速度：纯序列输入，毫秒级。
- 优势：完全不需要结构信息，能有效捕获协同进化信息和突变对整体稳定性的影响。
- 局限：对界面特定接触（如氢键、盐桥的变化）不敏感，通常作为初筛的第一道过滤器。

四、机器学习特征融合方法（兼顾速度与物理直觉）

这类方法虽然不是端到端的深度学习，但在实际工业管线中因极高的计算性价比而被广泛使用。

5. PremPS / MutaBind2

原理：提取突变位点周围的深度学习表征（如 ESM 嵌入）、结合传统的物理特征（如溶剂可及表面积 SASA的变化、静电势变化、范德华力变化），通过随机森林（Random Forest）或梯度提升树（GBDT）进行回归预测。
特点：
- 速度：< 5 秒/突变。
- 优势：可解释性强。在计算突变引起的相互作用力改变（尤其是引入电荷或改变疏水性）时，结果非常稳健，且比纯 FoldX 更不易因局部原子碰撞而报错。

五、高通量筛选管线（Pipeline）推荐

在实际的 AI 蛋白质设计项目中，单一方法往往存在局限。目前行业内普遍采用漏斗型（Funnel）多级筛选管线：

  [ 10,000+ 突变体序列 (ProteinMPNN 生成) ]
                  │
                  ▼
【第一级：极速初筛】 ESM-1v / ESM-2 (序列级 Zero-shot)
  筛选指标：LLR score ＞ 0 ； 耗时：~ 毫秒级/个
                  │  过滤掉 80% 明显破坏稳定性的序列
                  ▼
【第二级：骨架兼容筛选】 ESM-IF1 / ProteinMPNN 自打分
  筛选指标：Score / Perplexity 低于阈值 ； 耗时：~0.1秒/个
                  │  保留界面兼容性好的 Top 5%
                  ▼
【第三级：结合力精筛】 GeoPPI / PremPS / FoldX (并行化)
  筛选指标：预测 ΔΔG < -1.0 kcal/mol ； 耗时：~数秒/个
                  │  筛选出 Top 1% 的高置信度候选者
                  ▼
【第四级：终极验证】 ColabFold / AlphaFold-Multimer (预测复合物结构)
  筛选指标：结合界面 pLDDT ＞ 80，iPAE ＜ 10 Å，或用 PRODIGY 计算亲和力
                  │  挑选出最终 10~50 个突变体
                  ▼
            [ 送去湿实验验证 ]

总结建议：

如果你追求最快的集成速度，直接在 ProteinMPNN 的输出脚本中加入 ESM-IF1 打分，不需要额外复杂的环境配置。
如果你追求预测准确度（高相关性 $R^2$），推荐使用 GeoPPI 或 PremPS，它们在公开的 PPI 突变体数据集上比传统 FoldX 具有更高的实验相关性。
在最后一轮精选时，依然建议配合 ColabFold (AF-Multimer) 进行结构建模，通过观察界面相互作用的合理性（如氢键是否配对、是否有明显的空洞）做最后的人工把关。

除了FoldX，如何用深度学习方法快速评估ProteinMPNN突变体的结合力？

一、 基于逆折叠模型（Inverse Folding）的似然值打分（最快路线）

1. ESM-IF1 / ProteinMPNN 本身

二、 专门预测 $\Delta\Delta G$ 的图神经网络（GNN）与几何深度学习