在抗体药物研发的早期阶段,面对数十万个候选抗体序列,ColabFold(基于 AlphaFold-Multimer)的推断速度是无法承受的。 尽管它的精度极高,但其庞大的参数量和自注意力机制的时间复杂度,导致单次对接耗时通常在数分钟到数十分钟不等。在没有确定 Epitope(抗原表位)的“盲对接(Blind Docking)”场景下,这种算力消耗呈指数级上升。
超高通量筛选(Ultra-high-throughput screening)的核心诉求是**“秒级甚至毫秒级”的单样推断速度**,同时必须保持对三维空间旋转平移等变性(SE(3)-equivariance)的物理约束。
要实现这一目标,基于几何深度学习(Geometry Deep Learning, GDL)的新一代工具是目前最优的选择。以下梳理了目前最适合用于抗体-抗原高通量盲对接的几款几何深度学习工具,并给出了一个工程化落地的级联筛选工作流。
一、 基于表面表征的几何深度学习:dMaSIF
如果你需要在一夜之间筛选数十万个抗体,dMaSIF(differentiable Molecular Surface Interaction Fingerprints) 是毫无疑问的首选。
- 核心原理:传统的对接工具依赖于原子坐标(3D点云或图结构),而 dMaSIF 将蛋白质简化为**“电子密度/几何曲率表面”**。它将蛋白质表面看作流形,利用几何算子(Geodesic Convolution)或点云网络(PointNet++),直接在表面上学习化学与几何特征的“指纹”。
- 通量表现:毫秒级。 针对一对蛋白质的匹配打分只需几毫秒到几十毫秒,比 AlphaFold 快了 4~5 个数量级。
- 抗体-抗原适用性:极高。抗体-抗原的识别本质上是表面电荷与几何形状的互补(Lock-and-Key 的升级版)。dMaSIF 不需要预先知道结合位点,它能直接扫描抗原表面,预测哪些区域属于潜在的 Epitope,并与抗体的 CDR 环区表面进行零秒匹配。
- 局限性:它提供的是“匹配打分”和“粗糙粗定位”,无法直接生成高解析度的原子级对接晶体结构。
二、 基于 SE(3) 等变图神经网络的刚性快速对接:EquiDock
在需要获取近似三维对接姿态(Pose),但又要求极高速度时,EquiDock 是经典的 GDL 刚性对接工具。
- 核心原理:EquiDock 将蛋白质表示为残基级别的三维图(Graph),利用 SE(3)-等变图神经网络(EGNN),直接预测受体和配体之间的旋转平移矩阵(Rigid Transformation)。它将对接问题从传统的“采样-打分”范式,转变为一步到位的“回归(Regression)”问题。
- 通量表现:秒级。 单个复合物的对接通常在 1 秒以内完成,极其适合分布式部署进行大规模并行筛选。
- 抗体-抗原适用性:作为盲对接的“初筛器”非常合格。它可以接受完全没有对齐、随机分布在空间中的抗体和抗原,然后瞬间将它们拉近并对准可能的结合界面。
- 局限性:由于是纯刚性(Rigid)对接,它忽略了抗体 CDR 环区的柔性构象调整(Induced-fit)。如果输入结构的 CDR 环区本身构象偏离较大,对接精度会明显下降。
三、 基于生成式扩散模型的全局盲对接:DiffDock-PP / DockGen
如果你对对接的精度有一定要求,同时希望保留对全局空间的“盲搜”能力,扩散模型是近年来的突破性方向。
- 核心原理:DiffDock-PP(以及针对蛋白质-蛋白质专门优化的 DockGen)将盲对接建模为一个在连续的 $SE(3)$ 流形上的逆扩散过程。模型从一个随机的相对位置和姿态开始,通过逐步去噪,引导抗体“寻找”抗原表面的全局最优结合位点。
- 通量表现:中等偏高(单次 10秒 ~ 1分钟)。 它的速度慢于 EquiDock,但由于采用了高效的几何图神经网络,其速度依然远快于 ColabFold 和传统物理对接软件(如 ZDOCK, ClusPro)。
- 抗体-抗原适用性:在盲对接测试中,DiffDock-PP 表现出了极强的寻找正确 Epitope 的能力,能够有效避免陷入局部能量极小值。它可以作为高通量筛选中后期的核心骨干。
- 局限性:对显存要求较高,生成多个候选 Pose 需要多次采样(Sampling Steps),这会成倍增加计算时间。
四、 专为抗体优化的几何端到端工具:xTrimoDock / AbDock
除了通用的蛋白质-蛋白质对接工具,目前也出现了一些专门针对抗体-抗原体系设计的 GDL 工具。
- AbDock / xTrimoDock:这类工具通常集成了抗体结构预测(如 IgFold / ESMFold)与快速几何对接。例如,一些工作利用抗体 CDR 环的特定几何约束(如外显构象的刚性域),在 GDL 架构中加入了针对 CDR 的注意力机制偏置,使得盲对接能够自动聚焦于抗体的 CDR 区域,而不是抗体恒定区(Fc/Framework),从而大幅减少了无用的搜索空间。
实战:如何搭建“级联筛选(Cascade Pipeline)”工作流?
在实际的抗体虚拟筛选项目中,没有任何单一工具可以同时兼顾“超高通量”与“原子级精度”。行业内成熟的做法是构建多级过滤漏斗:
graph TD
A[抗体候选库: 100,000+] --> B[Stage 1: 表面互补粗筛 dMaSIF]
B -->|过滤 95% 不匹配结构| C[候选库: 5,000]
C --> D[Stage 2: 快速等变对接 EquiDock / DiffDock-PP]
D -->|生成 Top 3 Pose, 过滤低评分| E[候选库: 100]
E --> F[Stage 3: 高精度验证 ColabFold / AlphaFold 3]
F --> G[最终湿实验验证: 5~10个]
1. 粗筛阶段(Stage 1:万级到十万级)
- 使用工具:dMaSIF
- 操作方法:先用快速结构预测工具(如 ESMFold / IgFold)生成抗体的 3D 结构,然后用 dMaSIF 计算抗原与抗体表面的物理化学特征指纹,通过互补性打分直接过滤掉 95% 以上明显不匹配的抗体。
- 耗时:单卡(如 A100)几天内即可完成十万级筛选。
2. 细筛阶段(Stage 2:千级)
- 使用工具:DiffDock-PP 或 EquiDock
- 操作方法:对 Stage 1 留下的前几千个候选体进行实际的盲对接,每个复合物生成 10~20 个 Pose。利用接口接触面积(Interface MSA)、氢键/疏水相互作用预测进行打分排序,筛选出 Top 100 的抗体。
- 耗时:数小时至一天。
3. 精修与高精度验证(Stage 3:百级)
- 使用工具:ColabFold (AlphaFold-Multimer) / AlphaFold 3 / 传统分子动力学精修 (AMBER)
- 操作方法:此时候选抗体只剩 100 个以内,可以放心地启动 ColabFold 甚至最新的 AlphaFold 3 进行端到端的协同折叠与对接,获取极高置信度的原子级界面细节(查看 pLDDT 和 iPAE 分数)。
通过这种 GDL 级联筛选策略,你既发挥了几何深度学习在低维表征(表面点云、SE(3)图)上的极致速度,又保留了深度学习标杆(AlphaFold)在高维原子空间上的惊人精度,是目前性价比最高的抗体虚拟筛选技术路线。