在抗体工程中,热稳定性(Tm值)与亲和力(结合力)的协同优化是一个经典的“既要又要”难题。
ProteinMPNN 作为目前最优秀的逆折叠(Inverse Folding)模型之一,其本质是根据主链几何结构生成匹配的氨基酸序列。它本身并不能直接“预测”或“理解”热力学上的 $T_m$ 值或结合常数 $K_d$。因此,要用 ProteinMPNN 协同设计热稳定性与结合力,不能单纯依靠它的默认输出,而是需要将其嵌入到一个**“结构约束 + 骨架再造 + 协同筛选”**的组合工作流中。
以下是实现这一目标的核心策略和具体实操路径。
一、 空间解耦:固定CDR区,重设计骨架区(Framework)
抗体的结合力主要由 CDR 环区(尤其是 CDR-H3)决定,而抗体的整体热稳定性则高度依赖于轻重链骨架区(Framework Regions, FR)的结构刚性与内部堆积。
利用 ProteinMPNN 进行设计时,最核心的策略是**“保护CDR,榨干FR”**:
- 精确定义固定残基:
在输入 ProteinMPNN 时,通过传入--fixed_positions_json参数,将与抗原直接接触的 CDR 残基(通过结构分析或接入 PISA、Arpeggio 等工具识别)完全锁死,不进行任何突变。这样可以最大程度保留原始抗体的结合基序(Binding Motif)。 - 释放骨架区突变空间:
允许 ProteinMPNN 对轻重链的 FR 区进行重新设计。ProteinMPNN 对通用蛋白质折叠具有极强的重构能力,它能自动识别骨架中不合理的空腔、氢键网络缺失或暴露的疏水斑块,并通过氨基酸替换来优化整体的自由能。
二、 骨架集成采样(Backbone Ensembles)
ProteinMPNN 对输入的主链坐标(Backbone Coordinates)极度敏感。如果只基于单一的晶体结构或预测结构(如 AlphaFold2 预测的静态结构)进行设计,很容易陷入局部最优,甚至由于结构微调导致 CDR 空间取向发生偏差,进而摧毁结合力。
为了在优化 $T_m$ 的同时维持结合力,建议采用骨架系综(Ensemble)设计:
- 分子动力学模拟(MD)平衡:
在高温(如 310K - 350K)下对抗体-抗原复合物进行短暂的分子动力学模拟(如 50-100 ns),提取稳定轨迹中的多个构象(通常选择 5-10 个代表性 Frame)。 - 多构象联合设计:
将这组构象分别输入 ProteinMPNN。对于同一骨架区的某个位置,如果多个构象下 ProteinMPNN 都倾向于推荐某一种疏水堆积更优的氨基酸(如 Val 变为 Ile,或 Ala 变为 Leu),那么这个突变大概率能显著提升 $T_m$,且不会因为微小的结构扰动而导致结合力丧失。
三、 通过参数偏置(Bias)调控物化性质
在运行 ProteinMPNN 时,可以通过调节采样温度(Sampling Temperature)和氨基酸偏置(Bias)来定向诱导高热稳定性的序列特征。
1. 降低采样温度(Temperature = 0.1)
- 原理:较低的温度(如
0.1)会使 ProteinMPNN 的输出概率分布更加陡峭,倾向于选择能量评分最低、最符合稳定折叠规律的氨基酸。 - 效果:生成高度保守、包装极度紧密的骨架序列,这对抗体 $T_m$ 值的提升至关重要。
2. 引入氨基酸偏置(AA Bias)
抗体热稳定性与特定氨基酸的分布密切相关。你可以在运行脚本中加入 --bias_AA_dict 参数:
- 增加盐桥(Salt Bridges):适当调高 Arg (R)、Lys (K)、Asp (D)、Glu (E) 的权重,促进抗体表面的电荷网络建设,这是提高热力学稳定性的经典手段。
- 避免不稳定因素:微调减小 Met (M) 和 Cys (C,非二硫键部分) 的概率,防止后期生产中发生氧化或非特异性聚集。
四、 协同设计的漏斗式筛选管线(Pipeline)
由于 ProteinMPNN 生成的候选序列可能成百上千,我们需要建立一个组合了“结合力评估”与“热稳定性评估”的双轨筛选机制。
[ 原始抗体-抗原复合物结构 ]
│
MD模拟 / Rosetta Relax 产生骨架系综
│
┌──────────────────┴──────────────────┐
▼ ▼
固定CDR,设计FR 温和设计CDR
(ProteinMPNN T=0.1) (ProteinMPNN T=0.2)
│ │
└──────────────────┬──────────────────┘
▼
[ 产生 1000+ 候选序列 ]
│
┌─────────────────────┴─────────────────────┐
▼ ▼
【热稳定性筛选 (Tm)】 【结合力筛选 (Affinity)】
1. FoldX / Rosetta ddG 1. AlphaFold-Multimer (iPAE/pLDDT)
2. ESM-1v 零样本变异预测 2. ESM-Fv / AntiBERTy 似然值评估
3. 表面疏水斑块计算 (SAP score) 3. Haddock 柔性对接评分
│ │
└─────────────────────┬─────────────────────┘
▼
[ 交叉相交子集 ]
│
[ 湿实验验证 (20-50个) ]
关键筛选步骤解析:
- 稳定性粗筛(ddG 预测):
使用 FoldX 或 Rosetta ddG 计算设计序列相对于野生型(WT)的自由能变化($\Delta\Delta G$)。筛选出 $\Delta\Delta G < -1.0 \text{ kcal/mol}$ 且不破坏局部二级结构的变体。 - 基于蛋白质语言模型(pLM)的进化演化筛选:
使用 ESM-2 或 ESM-1v 计算序列的伪似然对数值(Pseudo-log-likelihood)。自然界中进化频率越高的突变组合,往往在生物物理性质(包括溶解度和热稳定性)上表现越好。 - 结合力校验(结构复原度):
使用 AlphaFold-Multimer 或 ColabFold 对设计序列与抗原进行重预测。- 核心指标:检查结合界面(Interface)的 pLDDT 是否依然保持高位(>85),且结合界面的预测对齐误差(iPAE)没有显著增加。如果 iPAE 增大,说明骨架区的突变已经间接传导并扭曲了 CDR 的空间构象,需予以排除。
五、 实操配置命令行示例
在实际运行 ProteinMPNN 时,你的配置脚本逻辑大致如下:
python protein_mpnn_run.py \
--pdb_path "./antibody_antigen_complex.pdb" \
--pdb_path_chains "H L" \ # 仅对抗体的轻重链进行设计
--fixed_positions_jsonl "./fixed_cdrs.jsonl" \ # 锁死CDR残基位置
--out_folder "./optimized_antibodies" \
--num_seq_per_target 100 \
--sampling_temp "0.1" \ # 低温采样以获得高稳定性骨架
--bias_AA_dict "./stability_bias.json" \ # 引入有利于提高Tm值的残基偏置
--seed 42
其中 stability_bias.json 可以定义为:
{
"R": 0.2, "K": 0.2, "D": 0.1, "E": 0.1, // 促进表面盐桥形成
"M": -0.5, "C": -1.0 // 避免易氧化和游离半胱氨酸
}
总结
利用 ProteinMPNN 协同设计抗体 Tm 值与结合力的核心在于:用结构物理学和生物学先验知识去约束生成模型的搜索空间。
不要让 ProteinMPNN 去做“盲盒式”的全序列设计,而是将其作为骨架优化器(维持CDR几何构象,重塑FR微环境)。结合后期的 ddG 能量计算与蛋白质语言模型筛除不良变体,这种计算干湿结合的成功率通常可以达到 30% 以上,能够用极低的显性实验成本换取高热稳定性的抗体候选药物。