如何在不牺牲抗体结合力的前提下，利用ProteinMPNN大幅提升热稳定性（Tm）？

在抗体工程中，热稳定性（Tm值）与亲和力（结合力）的协同优化是一个经典的“既要又要”难题。

ProteinMPNN 作为目前最优秀的逆折叠（Inverse Folding）模型之一，其本质是根据主链几何结构生成匹配的氨基酸序列。它本身并不能直接“预测”或“理解”热力学上的 $T_m$ 值或结合常数 $K_d$。因此，要用 ProteinMPNN 协同设计热稳定性与结合力，不能单纯依靠它的默认输出，而是需要将其嵌入到一个**“结构约束 + 骨架再造 + 协同筛选”**的组合工作流中。

以下是实现这一目标的核心策略和具体实操路径。

一、空间解耦：固定CDR区，重设计骨架区（Framework）

抗体的结合力主要由 CDR 环区（尤其是 CDR-H3）决定，而抗体的整体热稳定性则高度依赖于轻重链骨架区（Framework Regions, FR）的结构刚性与内部堆积。

利用 ProteinMPNN 进行设计时，最核心的策略是**“保护CDR，榨干FR”**：

精确定义固定残基：
在输入 ProteinMPNN 时，通过传入 --fixed_positions_json 参数，将与抗原直接接触的 CDR 残基（通过结构分析或接入 PISA、Arpeggio 等工具识别）完全锁死，不进行任何突变。这样可以最大程度保留原始抗体的结合基序（Binding Motif）。
释放骨架区突变空间：
允许 ProteinMPNN 对轻重链的 FR 区进行重新设计。ProteinMPNN 对通用蛋白质折叠具有极强的重构能力，它能自动识别骨架中不合理的空腔、氢键网络缺失或暴露的疏水斑块，并通过氨基酸替换来优化整体的自由能。

二、骨架集成采样（Backbone Ensembles）

ProteinMPNN 对输入的主链坐标（Backbone Coordinates）极度敏感。如果只基于单一的晶体结构或预测结构（如 AlphaFold2 预测的静态结构）进行设计，很容易陷入局部最优，甚至由于结构微调导致 CDR 空间取向发生偏差，进而摧毁结合力。

为了在优化 $T_m$ 的同时维持结合力，建议采用骨架系综（Ensemble）设计：

分子动力学模拟（MD）平衡：
在高温（如 310K - 350K）下对抗体-抗原复合物进行短暂的分子动力学模拟（如 50-100 ns），提取稳定轨迹中的多个构象（通常选择 5-10 个代表性 Frame）。
多构象联合设计：
将这组构象分别输入 ProteinMPNN。对于同一骨架区的某个位置，如果多个构象下 ProteinMPNN 都倾向于推荐某一种疏水堆积更优的氨基酸（如 Val 变为 Ile，或 Ala 变为 Leu），那么这个突变大概率能显著提升 $T_m$，且不会因为微小的结构扰动而导致结合力丧失。

三、通过参数偏置（Bias）调控物化性质

在运行 ProteinMPNN 时，可以通过调节采样温度（Sampling Temperature）和氨基酸偏置（Bias）来定向诱导高热稳定性的序列特征。

1. 降低采样温度（Temperature = 0.1）

原理：较低的温度（如 0.1）会使 ProteinMPNN 的输出概率分布更加陡峭，倾向于选择能量评分最低、最符合稳定折叠规律的氨基酸。
效果：生成高度保守、包装极度紧密的骨架序列，这对抗体 $T_m$ 值的提升至关重要。

2. 引入氨基酸偏置（AA Bias）

抗体热稳定性与特定氨基酸的分布密切相关。你可以在运行脚本中加入 --bias_AA_dict 参数：

增加盐桥（Salt Bridges）：适当调高 Arg (R)、Lys (K)、Asp (D)、Glu (E) 的权重，促进抗体表面的电荷网络建设，这是提高热力学稳定性的经典手段。
避免不稳定因素：微调减小 Met (M) 和 Cys (C，非二硫键部分) 的概率，防止后期生产中发生氧化或非特异性聚集。

四、协同设计的漏斗式筛选管线（Pipeline）

由于 ProteinMPNN 生成的候选序列可能成百上千，我们需要建立一个组合了“结合力评估”与“热稳定性评估”的双轨筛选机制。

                   [ 原始抗体-抗原复合物结构 ]
                               │
               MD模拟 / Rosetta Relax 产生骨架系综
                               │
            ┌──────────────────┴──────────────────┐
            ▼                                     ▼
     固定CDR，设计FR                       温和设计CDR
  (ProteinMPNN T=0.1)                  (ProteinMPNN T=0.2)
            │                                     │
            └──────────────────┬──────────────────┘
                               ▼
                    [ 产生 1000+ 候选序列 ]
                               │
         ┌─────────────────────┴─────────────────────┐
         ▼                                           ▼
   【热稳定性筛选 (Tm)】                        【结合力筛选 (Affinity)】
   1. FoldX / Rosetta ddG                    1. AlphaFold-Multimer (iPAE/pLDDT)
   2. ESM-1v 零样本变异预测                  2. ESM-Fv / AntiBERTy 似然值评估
   3. 表面疏水斑块计算 (SAP score)            3. Haddock 柔性对接评分
         │                                           │
         └─────────────────────┬─────────────────────┘
                               ▼
                        [ 交叉相交子集 ]
                               │
                     [ 湿实验验证 (20-50个) ]

关键筛选步骤解析：

稳定性粗筛（ddG 预测）：
使用 FoldX 或 Rosetta ddG 计算设计序列相对于野生型（WT）的自由能变化（$\Delta\Delta G$）。筛选出 $\Delta\Delta G < -1.0 \text{ kcal/mol}$ 且不破坏局部二级结构的变体。
基于蛋白质语言模型（pLM）的进化演化筛选：
使用 ESM-2 或 ESM-1v 计算序列的伪似然对数值（Pseudo-log-likelihood）。自然界中进化频率越高的突变组合，往往在生物物理性质（包括溶解度和热稳定性）上表现越好。
结合力校验（结构复原度）：
使用 AlphaFold-Multimer 或 ColabFold 对设计序列与抗原进行重预测。
- 核心指标：检查结合界面（Interface）的 pLDDT 是否依然保持高位（>85），且结合界面的预测对齐误差（iPAE）没有显著增加。如果 iPAE 增大，说明骨架区的突变已经间接传导并扭曲了 CDR 的空间构象，需予以排除。

五、实操配置命令行示例

在实际运行 ProteinMPNN 时，你的配置脚本逻辑大致如下：

python protein_mpnn_run.py \
    --pdb_path "./antibody_antigen_complex.pdb" \
    --pdb_path_chains "H L" \                    # 仅对抗体的轻重链进行设计
    --fixed_positions_jsonl "./fixed_cdrs.jsonl" \ # 锁死CDR残基位置
    --out_folder "./optimized_antibodies" \
    --num_seq_per_target 100 \
    --sampling_temp "0.1" \                      # 低温采样以获得高稳定性骨架
    --bias_AA_dict "./stability_bias.json" \     # 引入有利于提高Tm值的残基偏置
    --seed 42

其中 stability_bias.json 可以定义为：

{
    "R": 0.2, "K": 0.2, "D": 0.1, "E": 0.1,  // 促进表面盐桥形成
    "M": -0.5, "C": -1.0                    // 避免易氧化和游离半胱氨酸
}

总结

利用 ProteinMPNN 协同设计抗体 Tm 值与结合力的核心在于：用结构物理学和生物学先验知识去约束生成模型的搜索空间。

不要让 ProteinMPNN 去做“盲盒式”的全序列设计，而是将其作为骨架优化器（维持CDR几何构象，重塑FR微环境）。结合后期的 ddG 能量计算与蛋白质语言模型筛除不良变体，这种计算干湿结合的成功率通常可以达到 30% 以上，能够用极低的显性实验成本换取高热稳定性的抗体候选药物。

如何在不牺牲抗体结合力的前提下，利用ProteinMPNN大幅提升热稳定性（Tm）？

一、 空间解耦：固定CDR区，重设计骨架区（Framework）

二、 骨架集成采样（Backbone Ensembles）

三、 通过参数偏置（Bias）调控物化性质