在治疗性抗体开发中,非特异性结合(Non-Specific Binding, NSB)或多反应性(Polyreactivity)是导致候选药物在体内药代动力学(PK)性质差、清除率快以及毒性升高的主要原因之一。
利用蛋白质语言模型(pLM)在早期进行硅(In Silico)筛查,可以大幅降低湿实验的试错成本。本文将系统梳理目前最适合用于抗体非特异性结合(NSB)筛查的开源抗体特定语言模型,并对比通用型pLM,提供具体的落地应用策略。
核心痛点:pLM 如何表征非特异性结合?
非特异性结合通常由抗体抗原结合区(主要是 CDR 环,尤其是 CDR-H3)表面过于暴露的疏水性斑块(Hydrophobic patches)、异常的电荷分布(Electrostatic charge)以及柔性过高引起。
语言模型表征 NSB 主要通过以下两种路径:
- 特征提取(Embeddings)+ 下游分类器:利用 pLM 提取抗体序列的高维语义表征,结合已知的 NSB 湿实验数据集(如经典的 Jain 12-assay 数据集、Adimab 多反应性数据集),训练轻量级的机器学习模型(如 Random Forest、XGBoost 或 MLP)。
- 零样本预测(Zero-shot Likelihood / Perplexity):通过计算抗体序列在模型中的伪似然值(Pseudo-perplexity)。通常,天然抗体库中极少出现的、物理化学性质异常(如极度疏水)的序列,在模型中会获得较低的概率得分。这种“背离天然分布”的特征与开发性差(包括高 NSB)高度相关。
推荐开源抗体特异性 pLM 及其实战表现
1. AntiBERTy (目前最主流的抗体 Embedding 生成器)
- 研发团队:沙利文实验室(Ruffolo et al., Johns Hopkins University)
- 架构与数据:基于 BERT 架构,在观测抗体空间(OAS)数据集的 1.4 亿条天然抗体序列上进行了预训练。
- 为什么适合 NSB 筛查:
- 聚类与演化表示:AntiBERTy 的注意力机制能够隐式地学习抗体可变区的结构域划分。其生成的 Embedding 对抗体序列的微小突变非常敏感,能够捕获可能导致疏水性骤增的突变。
- 下游适配性:在预测抗体开发性(Developability)的多篇 Benchmark 论文中,AntiBERTy 提取的 Embedding 在作为下游 NSB 分类器的输入时,表现出极高的稳定性。
2. AbNatiV (专为评估开发性与“天然度”设计的模型)
- 研发团队:剑桥大学(Vigliano et al., Vendruscolo Group)
- 架构与数据:基于变分自编码器(VAE)架构,专门用于评估抗体的“天然度(Nativeness)”和开发性配置文件。
- 为什么适合 NSB 筛查:
- 直接的零样本打分:AbNatiV 不需要你拥有庞大的私有 wet-lab 数据集。它会直接输出一个“Nativeness Score”。研究表明,该得分与抗体的溶解度、聚集倾向以及非特异性结合高度负相关。
- 定位关键残基:该模型可以提供残基级别的得分贡献图,直接指出 CDR 区哪些氨基酸突变导致了非特异性风险的升高。
3. AbLang / AbLang-2 (超轻量且对变异敏感的表征模型)
- 研发团队:牛津大学(Osen et al.)
- 架构与数据:专门针对抗体轻链和重链独立及联合训练的语言模型,重点优化了重构精度。
- 为什么适合 NSB 筛查:
- 对缺失和突变高度容忍:在实际抗体工程中,由于测序质量或特定设计,可能存在缺失值。AbLang 具有极强的抗干扰重构能力。
- 极高的运行速度:相比于庞大的通用模型,AbLang-2 更加轻量,适合对数百万量级的超大规模合成抗体库进行高通量突变体 NSB 粗筛。
关键辩证:抗体特异性模型 vs 通用模型(如 ESM-2)
这是一个在学术界和工业界经常被讨论的问题:我们在筛查 NSB 时,到底应该用抗体专用模型(如 AntiBERTy),还是通用模型(如 ESM-2)?
| 维度 | 抗体特定模型 (如 AntiBERTy, AbLang) | 通用蛋白质模型 (如 ESM-2-650M/3B) |
|---|---|---|
| 预训练数据分布 | 仅抗体序列(高度同源,局限于特定骨架) | 全球已知蛋白质(序列极其多样) |
| 物理化学性质敏感度 | 较弱,倾向于关注抗体种系起源与突变保守性 | 极强,对疏水性、静电荷、局部二级结构极其敏感 |
| 非特异性(NSB)筛查表现 | 适合用于评估抗体的“天然度”和“免疫原性” | 在预测物理化学导致的非特异性粘附时,下游分类效果往往更好 |
业界共识:
如果你想通过下游有监督学习(Supervised Learning)来预测 NSB,ESM-2(特别是 650M 或 3B 版本)提取的表征往往优于纯抗体模型。这是因为非特异性结合在本质上是一个物理化学过程(电荷与疏水性作用),通用模型在处理这类底层生物物理特征时具有更强的泛化能力。
但如果你希望进行无监督筛查(Zero-shot),快速剔除序列不合理的异常抗体,AbNatiV 和 AntiBERTy 的自然度评分(Perplexity)更具参考价值。
落地实施方案:如何搭建你的 NSB 硅筛查管线?
以下推荐一套被工业界验证的混合筛查工作流(Hybrid Workflow):
[抗体候选序列库]
│
▼
┌────────────────────────────────────────┐
│ 第一阶段:零样本粗筛(Zero-shot Filtering) │
│ - 使用 AbNatiV 计算 Nativeness Score │
│ - 剔除得分低于阈值(如 < 0.8)的异常序列 │
└────────────────────────────────────────┘
│ (保留高天然度候选)
▼
┌────────────────────────────────────────┐
│ 第二阶段:特征提取(Feature Extraction) │
│ - 使用 ESM-2 (650M) 提取残基级别 Embeddings │
│ - 拼接 AntiBERTy 的全局序列表示 │
└────────────────────────────────────────┘
│
▼
┌────────────────────────────────────────┐
│ 第三阶段:下游分类预测(Classification) │
│ - 输入到在 Jain 等公开数据集上训练好的 │
│ XGBoost/LightGBM 分类器中 │
│ - 预测具体的 NSB 指标(如 PSR, ELISA-Self)│
└────────────────────────────────────────┘
│
▼
[高活性、低非特异性抗体候选 -> 交付湿实验验证]
推荐的基准测试集(Benchmarking Datasets)
用于训练和验证你下游 NSB 预测器的公开数据集:
- Jain et al. (2017):包含 137 个临床阶段抗体的 12 项开发性指标(包括各类非特异性结合测定)。
- Adimab Polyreactivity Dataset:业内广泛使用的抗体多反应性金标准数据集。
总结
对于非特异性结合筛查:
- 如果追求开箱即用、无监督过滤,首选 AbNatiV;
- 如果追求高精度预测、准备训练私有分类器,首选 ESM-2 作为表征提取器,并结合 AntiBERTy 注入抗体特异性先验知识。
通过这两种开源工具的有机结合,可以在湿实验干预前排除掉超过 60% 具有潜在开发性缺陷的“胶粘”抗体。