抗体非特异性结合（NSB）筛查：如何选择与应用开源抗体蛋白质语言模型（pLM）

在治疗性抗体开发中，非特异性结合（Non-Specific Binding, NSB）或多反应性（Polyreactivity）是导致候选药物在体内药代动力学（PK）性质差、清除率快以及毒性升高的主要原因之一。

利用蛋白质语言模型（pLM）在早期进行硅（In Silico）筛查，可以大幅降低湿实验的试错成本。本文将系统梳理目前最适合用于抗体非特异性结合（NSB）筛查的开源抗体特定语言模型，并对比通用型pLM，提供具体的落地应用策略。

核心痛点：pLM 如何表征非特异性结合？

非特异性结合通常由抗体抗原结合区（主要是 CDR 环，尤其是 CDR-H3）表面过于暴露的疏水性斑块（Hydrophobic patches）、异常的电荷分布（Electrostatic charge）以及柔性过高引起。

语言模型表征 NSB 主要通过以下两种路径：

特征提取（Embeddings）+ 下游分类器：利用 pLM 提取抗体序列的高维语义表征，结合已知的 NSB 湿实验数据集（如经典的 Jain 12-assay 数据集、Adimab 多反应性数据集），训练轻量级的机器学习模型（如 Random Forest、XGBoost 或 MLP）。
零样本预测（Zero-shot Likelihood / Perplexity）：通过计算抗体序列在模型中的伪似然值（Pseudo-perplexity）。通常，天然抗体库中极少出现的、物理化学性质异常（如极度疏水）的序列，在模型中会获得较低的概率得分。这种“背离天然分布”的特征与开发性差（包括高 NSB）高度相关。

关键辩证：抗体特异性模型 vs 通用模型（如 ESM-2）

这是一个在学术界和工业界经常被讨论的问题：我们在筛查 NSB 时，到底应该用抗体专用模型（如 AntiBERTy），还是通用模型（如 ESM-2）？

维度	抗体特定模型 (如 AntiBERTy, AbLang)	通用蛋白质模型 (如 ESM-2-650M/3B)
预训练数据分布	仅抗体序列（高度同源，局限于特定骨架）	全球已知蛋白质（序列极其多样）
物理化学性质敏感度	较弱，倾向于关注抗体种系起源与突变保守性	极强，对疏水性、静电荷、局部二级结构极其敏感
非特异性（NSB）筛查表现	适合用于评估抗体的“天然度”和“免疫原性”	在预测物理化学导致的非特异性粘附时，下游分类效果往往更好

业界共识：
如果你想通过下游有监督学习（Supervised Learning）来预测 NSB，ESM-2（特别是 650M 或 3B 版本）提取的表征往往优于纯抗体模型。这是因为非特异性结合在本质上是一个物理化学过程（电荷与疏水性作用），通用模型在处理这类底层生物物理特征时具有更强的泛化能力。
但如果你希望进行无监督筛查（Zero-shot），快速剔除序列不合理的异常抗体，AbNatiV 和 AntiBERTy 的自然度评分（Perplexity）更具参考价值。

落地实施方案：如何搭建你的 NSB 硅筛查管线？

以下推荐一套被工业界验证的混合筛查工作流（Hybrid Workflow）：

[抗体候选序列库] 
       │
       ▼
┌────────────────────────────────────────┐
│  第一阶段：零样本粗筛（Zero-shot Filtering）   │
│  - 使用 AbNatiV 计算 Nativeness Score   │
│  - 剔除得分低于阈值（如 < 0.8）的异常序列     │
└────────────────────────────────────────┘
       │ (保留高天然度候选)
       ▼
┌────────────────────────────────────────┐
│  第二阶段：特征提取（Feature Extraction）   │
│  - 使用 ESM-2 (650M) 提取残基级别 Embeddings  │
│  - 拼接 AntiBERTy 的全局序列表示             │
└────────────────────────────────────────┘
       │
       ▼
┌────────────────────────────────────────┐
│  第三阶段：下游分类预测（Classification）      │
│  - 输入到在 Jain 等公开数据集上训练好的      │
│    XGBoost/LightGBM 分类器中            │
│  - 预测具体的 NSB 指标（如 PSR, ELISA-Self）│
└────────────────────────────────────────┘
       │
       ▼
[高活性、低非特异性抗体候选 -> 交付湿实验验证]

总结

对于非特异性结合筛查：

如果追求开箱即用、无监督过滤，首选 AbNatiV；
如果追求高精度预测、准备训练私有分类器，首选 ESM-2 作为表征提取器，并结合 AntiBERTy 注入抗体特异性先验知识。
通过这两种开源工具的有机结合，可以在湿实验干预前排除掉超过 60% 具有潜在开发性缺陷的“胶粘”抗体。

抗体非特异性结合（NSB）筛查：如何选择与应用开源抗体蛋白质语言模型（pLM）

核心痛点：pLM 如何表征非特异性结合？

推荐开源抗体特异性 pLM 及其实战表现

1. AntiBERTy (目前最主流的抗体 Embedding 生成器)

2. AbNatiV (专为评估开发性与“天然度”设计的模型)

3. AbLang / AbLang-2 (超轻量且对变异敏感的表征模型)

关键辩证：抗体特异性模型 vs 通用模型（如 ESM-2）

落地实施方案：如何搭建你的 NSB 硅筛查管线？

推荐的基准测试集（Benchmarking Datasets）

总结

点评评价