HOOOS

如何在不牺牲抗体结合力的前提下,利用ProteinMPNN大幅提升热稳定性(Tm)?

0 8 药研计算菌 抗体设计热稳定性
Apple

在抗体工程中,热稳定性(Tm值)与亲和力(结合力)的协同优化是一个经典的“既要又要”难题。

ProteinMPNN 作为目前最优秀的逆折叠(Inverse Folding)模型之一,其本质是根据主链几何结构生成匹配的氨基酸序列。它本身并不能直接“预测”或“理解”热力学上的 $T_m$ 值或结合常数 $K_d$。因此,要用 ProteinMPNN 协同设计热稳定性与结合力,不能单纯依靠它的默认输出,而是需要将其嵌入到一个**“结构约束 + 骨架再造 + 协同筛选”**的组合工作流中。

以下是实现这一目标的核心策略和具体实操路径。


一、 空间解耦:固定CDR区,重设计骨架区(Framework)

抗体的结合力主要由 CDR 环区(尤其是 CDR-H3)决定,而抗体的整体热稳定性则高度依赖于轻重链骨架区(Framework Regions, FR)的结构刚性与内部堆积。

利用 ProteinMPNN 进行设计时,最核心的策略是**“保护CDR,榨干FR”**:

  1. 精确定义固定残基
    在输入 ProteinMPNN 时,通过传入 --fixed_positions_json 参数,将与抗原直接接触的 CDR 残基(通过结构分析或接入 PISA、Arpeggio 等工具识别)完全锁死,不进行任何突变。这样可以最大程度保留原始抗体的结合基序(Binding Motif)。
  2. 释放骨架区突变空间
    允许 ProteinMPNN 对轻重链的 FR 区进行重新设计。ProteinMPNN 对通用蛋白质折叠具有极强的重构能力,它能自动识别骨架中不合理的空腔、氢键网络缺失或暴露的疏水斑块,并通过氨基酸替换来优化整体的自由能。

二、 骨架集成采样(Backbone Ensembles)

ProteinMPNN 对输入的主链坐标(Backbone Coordinates)极度敏感。如果只基于单一的晶体结构或预测结构(如 AlphaFold2 预测的静态结构)进行设计,很容易陷入局部最优,甚至由于结构微调导致 CDR 空间取向发生偏差,进而摧毁结合力。

为了在优化 $T_m$ 的同时维持结合力,建议采用骨架系综(Ensemble)设计

  1. 分子动力学模拟(MD)平衡
    在高温(如 310K - 350K)下对抗体-抗原复合物进行短暂的分子动力学模拟(如 50-100 ns),提取稳定轨迹中的多个构象(通常选择 5-10 个代表性 Frame)。
  2. 多构象联合设计
    将这组构象分别输入 ProteinMPNN。对于同一骨架区的某个位置,如果多个构象下 ProteinMPNN 都倾向于推荐某一种疏水堆积更优的氨基酸(如 Val 变为 Ile,或 Ala 变为 Leu),那么这个突变大概率能显著提升 $T_m$,且不会因为微小的结构扰动而导致结合力丧失。

三、 通过参数偏置(Bias)调控物化性质

在运行 ProteinMPNN 时,可以通过调节采样温度(Sampling Temperature)和氨基酸偏置(Bias)来定向诱导高热稳定性的序列特征。

1. 降低采样温度(Temperature = 0.1)

  • 原理:较低的温度(如 0.1)会使 ProteinMPNN 的输出概率分布更加陡峭,倾向于选择能量评分最低、最符合稳定折叠规律的氨基酸。
  • 效果:生成高度保守、包装极度紧密的骨架序列,这对抗体 $T_m$ 值的提升至关重要。

2. 引入氨基酸偏置(AA Bias)

抗体热稳定性与特定氨基酸的分布密切相关。你可以在运行脚本中加入 --bias_AA_dict 参数:

  • 增加盐桥(Salt Bridges):适当调高 Arg (R)、Lys (K)、Asp (D)、Glu (E) 的权重,促进抗体表面的电荷网络建设,这是提高热力学稳定性的经典手段。
  • 避免不稳定因素:微调减小 Met (M) 和 Cys (C,非二硫键部分) 的概率,防止后期生产中发生氧化或非特异性聚集。

四、 协同设计的漏斗式筛选管线(Pipeline)

由于 ProteinMPNN 生成的候选序列可能成百上千,我们需要建立一个组合了“结合力评估”与“热稳定性评估”的双轨筛选机制。

                   [ 原始抗体-抗原复合物结构 ]
                               │
               MD模拟 / Rosetta Relax 产生骨架系综
                               │
            ┌──────────────────┴──────────────────┐
            ▼                                     ▼
     固定CDR,设计FR                       温和设计CDR
  (ProteinMPNN T=0.1)                  (ProteinMPNN T=0.2)
            │                                     │
            └──────────────────┬──────────────────┘
                               ▼
                    [ 产生 1000+ 候选序列 ]
                               │
         ┌─────────────────────┴─────────────────────┐
         ▼                                           ▼
   【热稳定性筛选 (Tm)】                        【结合力筛选 (Affinity)】
   1. FoldX / Rosetta ddG                    1. AlphaFold-Multimer (iPAE/pLDDT)
   2. ESM-1v 零样本变异预测                  2. ESM-Fv / AntiBERTy 似然值评估
   3. 表面疏水斑块计算 (SAP score)            3. Haddock 柔性对接评分
         │                                           │
         └─────────────────────┬─────────────────────┘
                               ▼
                        [ 交叉相交子集 ]
                               │
                     [ 湿实验验证 (20-50个) ]

关键筛选步骤解析:

  1. 稳定性粗筛(ddG 预测)
    使用 FoldXRosetta ddG 计算设计序列相对于野生型(WT)的自由能变化($\Delta\Delta G$)。筛选出 $\Delta\Delta G < -1.0 \text{ kcal/mol}$ 且不破坏局部二级结构的变体。
  2. 基于蛋白质语言模型(pLM)的进化演化筛选
    使用 ESM-2ESM-1v 计算序列的伪似然对数值(Pseudo-log-likelihood)。自然界中进化频率越高的突变组合,往往在生物物理性质(包括溶解度和热稳定性)上表现越好。
  3. 结合力校验(结构复原度)
    使用 AlphaFold-MultimerColabFold 对设计序列与抗原进行重预测。
    • 核心指标:检查结合界面(Interface)的 pLDDT 是否依然保持高位(>85),且结合界面的预测对齐误差(iPAE)没有显著增加。如果 iPAE 增大,说明骨架区的突变已经间接传导并扭曲了 CDR 的空间构象,需予以排除。

五、 实操配置命令行示例

在实际运行 ProteinMPNN 时,你的配置脚本逻辑大致如下:

python protein_mpnn_run.py \
    --pdb_path "./antibody_antigen_complex.pdb" \
    --pdb_path_chains "H L" \                    # 仅对抗体的轻重链进行设计
    --fixed_positions_jsonl "./fixed_cdrs.jsonl" \ # 锁死CDR残基位置
    --out_folder "./optimized_antibodies" \
    --num_seq_per_target 100 \
    --sampling_temp "0.1" \                      # 低温采样以获得高稳定性骨架
    --bias_AA_dict "./stability_bias.json" \     # 引入有利于提高Tm值的残基偏置
    --seed 42

其中 stability_bias.json 可以定义为:

{
    "R": 0.2, "K": 0.2, "D": 0.1, "E": 0.1,  // 促进表面盐桥形成
    "M": -0.5, "C": -1.0                    // 避免易氧化和游离半胱氨酸
}

总结

利用 ProteinMPNN 协同设计抗体 Tm 值与结合力的核心在于:用结构物理学和生物学先验知识去约束生成模型的搜索空间

不要让 ProteinMPNN 去做“盲盒式”的全序列设计,而是将其作为骨架优化器(维持CDR几何构象,重塑FR微环境)。结合后期的 ddG 能量计算与蛋白质语言模型筛除不良变体,这种计算干湿结合的成功率通常可以达到 30% 以上,能够用极低的显性实验成本换取高热稳定性的抗体候选药物。

点评评价

captcha
健康