别再用ColabFold做万级筛选了：超高通量抗体-抗原盲对接的几何深度学习工具指南

在抗体药物研发的早期阶段，面对数十万个候选抗体序列，ColabFold（基于 AlphaFold-Multimer）的推断速度是无法承受的。 尽管它的精度极高，但其庞大的参数量和自注意力机制的时间复杂度，导致单次对接耗时通常在数分钟到数十分钟不等。在没有确定 Epitope（抗原表位）的“盲对接（Blind Docking）”场景下，这种算力消耗呈指数级上升。

超高通量筛选（Ultra-high-throughput screening）的核心诉求是**“秒级甚至毫秒级”的单样推断速度**，同时必须保持对三维空间旋转平移等变性（SE(3)-equivariance）的物理约束。

要实现这一目标，基于几何深度学习（Geometry Deep Learning, GDL）的新一代工具是目前最优的选择。以下梳理了目前最适合用于抗体-抗原高通量盲对接的几款几何深度学习工具，并给出了一个工程化落地的级联筛选工作流。

一、基于表面表征的几何深度学习：dMaSIF

如果你需要在一夜之间筛选数十万个抗体，dMaSIF（differentiable Molecular Surface Interaction Fingerprints） 是毫无疑问的首选。

核心原理：传统的对接工具依赖于原子坐标（3D点云或图结构），而 dMaSIF 将蛋白质简化为**“电子密度/几何曲率表面”**。它将蛋白质表面看作流形，利用几何算子（Geodesic Convolution）或点云网络（PointNet++），直接在表面上学习化学与几何特征的“指纹”。
通量表现：毫秒级。 针对一对蛋白质的匹配打分只需几毫秒到几十毫秒，比 AlphaFold 快了 4~5 个数量级。
抗体-抗原适用性：极高。抗体-抗原的识别本质上是表面电荷与几何形状的互补（Lock-and-Key 的升级版）。dMaSIF 不需要预先知道结合位点，它能直接扫描抗原表面，预测哪些区域属于潜在的 Epitope，并与抗体的 CDR 环区表面进行零秒匹配。
局限性：它提供的是“匹配打分”和“粗糙粗定位”，无法直接生成高解析度的原子级对接晶体结构。

二、基于 SE(3) 等变图神经网络的刚性快速对接：EquiDock

在需要获取近似三维对接姿态（Pose），但又要求极高速度时，EquiDock 是经典的 GDL 刚性对接工具。

核心原理：EquiDock 将蛋白质表示为残基级别的三维图（Graph），利用 SE(3)-等变图神经网络（EGNN），直接预测受体和配体之间的旋转平移矩阵（Rigid Transformation）。它将对接问题从传统的“采样-打分”范式，转变为一步到位的“回归（Regression）”问题。
通量表现：秒级。 单个复合物的对接通常在 1 秒以内完成，极其适合分布式部署进行大规模并行筛选。
抗体-抗原适用性：作为盲对接的“初筛器”非常合格。它可以接受完全没有对齐、随机分布在空间中的抗体和抗原，然后瞬间将它们拉近并对准可能的结合界面。
局限性：由于是纯刚性（Rigid）对接，它忽略了抗体 CDR 环区的柔性构象调整（Induced-fit）。如果输入结构的 CDR 环区本身构象偏离较大，对接精度会明显下降。

三、基于生成式扩散模型的全局盲对接：DiffDock-PP / DockGen

如果你对对接的精度有一定要求，同时希望保留对全局空间的“盲搜”能力，扩散模型是近年来的突破性方向。

核心原理：DiffDock-PP（以及针对蛋白质-蛋白质专门优化的 DockGen）将盲对接建模为一个在连续的 $SE(3)$ 流形上的逆扩散过程。模型从一个随机的相对位置和姿态开始，通过逐步去噪，引导抗体“寻找”抗原表面的全局最优结合位点。
通量表现：中等偏高（单次 10秒 ~ 1分钟）。 它的速度慢于 EquiDock，但由于采用了高效的几何图神经网络，其速度依然远快于 ColabFold 和传统物理对接软件（如 ZDOCK, ClusPro）。
抗体-抗原适用性：在盲对接测试中，DiffDock-PP 表现出了极强的寻找正确 Epitope 的能力，能够有效避免陷入局部能量极小值。它可以作为高通量筛选中后期的核心骨干。
局限性：对显存要求较高，生成多个候选 Pose 需要多次采样（Sampling Steps），这会成倍增加计算时间。

四、专为抗体优化的几何端到端工具：xTrimoDock / AbDock

除了通用的蛋白质-蛋白质对接工具，目前也出现了一些专门针对抗体-抗原体系设计的 GDL 工具。

AbDock / xTrimoDock：这类工具通常集成了抗体结构预测（如 IgFold / ESMFold）与快速几何对接。例如，一些工作利用抗体 CDR 环的特定几何约束（如外显构象的刚性域），在 GDL 架构中加入了针对 CDR 的注意力机制偏置，使得盲对接能够自动聚焦于抗体的 CDR 区域，而不是抗体恒定区（Fc/Framework），从而大幅减少了无用的搜索空间。

实战：如何搭建“级联筛选（Cascade Pipeline）”工作流？

在实际的抗体虚拟筛选项目中，没有任何单一工具可以同时兼顾“超高通量”与“原子级精度”。行业内成熟的做法是构建多级过滤漏斗：

graph TD
    A[抗体候选库: 100,000+] --> B[Stage 1: 表面互补粗筛 dMaSIF]
    B -->|过滤 95% 不匹配结构| C[候选库: 5,000]
    C --> D[Stage 2: 快速等变对接 EquiDock / DiffDock-PP]
    D -->|生成 Top 3 Pose, 过滤低评分| E[候选库: 100]
    E --> F[Stage 3: 高精度验证 ColabFold / AlphaFold 3]
    F --> G[最终湿实验验证: 5~10个]

1. 粗筛阶段（Stage 1：万级到十万级）

使用工具：dMaSIF
操作方法：先用快速结构预测工具（如 ESMFold / IgFold）生成抗体的 3D 结构，然后用 dMaSIF 计算抗原与抗体表面的物理化学特征指纹，通过互补性打分直接过滤掉 95% 以上明显不匹配的抗体。
耗时：单卡（如 A100）几天内即可完成十万级筛选。

2. 细筛阶段（Stage 2：千级）

使用工具：DiffDock-PP 或 EquiDock
操作方法：对 Stage 1 留下的前几千个候选体进行实际的盲对接，每个复合物生成 10~20 个 Pose。利用接口接触面积（Interface MSA）、氢键/疏水相互作用预测进行打分排序，筛选出 Top 100 的抗体。
耗时：数小时至一天。

3. 精修与高精度验证（Stage 3：百级）

使用工具：ColabFold (AlphaFold-Multimer) / AlphaFold 3 / 传统分子动力学精修 (AMBER)
操作方法：此时候选抗体只剩 100 个以内，可以放心地启动 ColabFold 甚至最新的 AlphaFold 3 进行端到端的协同折叠与对接，获取极高置信度的原子级界面细节（查看 pLDDT 和 iPAE 分数）。

通过这种 GDL 级联筛选策略，你既发挥了几何深度学习在低维表征（表面点云、SE(3)图）上的极致速度，又保留了深度学习标杆（AlphaFold）在高维原子空间上的惊人精度，是目前性价比最高的抗体虚拟筛选技术路线。

别再用ColabFold做万级筛选了：超高通量抗体-抗原盲对接的几何深度学习工具指南

一、 基于表面表征的几何深度学习：dMaSIF

二、 基于 SE(3) 等变图神经网络的刚性快速对接：EquiDock

三、 基于生成式扩散模型的全局盲对接：DiffDock-PP / DockGen

四、 专为抗体优化的几何端到端工具：xTrimoDock / AbDock