如何用 AlphaFold-Multimer 落地抗原与海量天然抗体文库的盲筛对接管线

在没有已知抗体作为阳性对照的情况下，直接使用 AlphaFold-Multimer (AFM) 对数万甚至数百万个天然抗体序列进行盲筛对接，在计算资源（GPU 算力）和时间成本上是极不现实的。标准 AFM 预测一个抗原-抗体复合物通常需要数十分钟到数小时。

要将这个任务落地，必须构建一套分级的“漏斗式”虚拟筛选管线。核心思路是：序列预过滤（降维） -> 快速刚体粗筛 -> 优化版 ColabFold 中筛 -> 精准 AFM 复筛与多指标联合评估。

以下是实现该方案的完整工程架构与关键技术细节。

一、第一阶段：文库清洗与代表性序列提取（降维）

天然抗体文库（尤其是通过 NGS 测序获得的文库）存在极高的数据冗余。第一步必须通过计算手段将候选库规模缩小 2-3 个数量级。

CDR-H3 聚类
抗体识别抗原的多样性和特异性主要由重链 CDR3（CDR-H3）决定。使用 MMseqs2 或 CD-HIT 对文库的 CDR-H3 序列进行聚类（推荐恒等性阈值：80% - 90%）。
- 从每个聚类簇中只提取 1-2 个代表性抗体，直接消减 80% 的冗余计算量。
生物物理学指标预过滤
利用语言模型（如 AntiBERTy 或 ESM-2）和常规工具（如 PyBioMed）评估抗体序列的成药性，剔除以下序列：
- 包含翻译提前终止、框架区插入缺失的无效序列。
- 极易发生聚集（Aggregation）、高疏水性、或存在剪切/糖基化位点风险的序列。
- 表达量预测极低的非稳定框架。

二、第二阶段：快速刚体对接粗筛（可选但强烈推荐）

如果经过第一阶段后，候选抗体仍有数万个，直接上深度学习折叠依然很吃力。可以通过快速结构建模与粗糙对接建立第一道防火墙。

高通量抗体结构预测
使用 IgFold 或 ESMFold。这两个工具预测单链/双链抗体结构的速度极快（单张卡几秒钟完成一个结构），且对 CDR 环区的预测精度足够用于粗筛。
快速刚体对接（Rigid-body Docking）
- 使用 HDOCK 或 ZDOCK 的命令行版本进行批处理。将抗原结构与预测的抗体结构进行全局盲对接。
- 盲筛设定：不指定任何约束，让算法在整蛋白表面进行采样，每个配对输出 Top 10 的构象。
- 过滤标准：利用快速评分函数（如对接能量评分、接触面积），保留排名前 10% 的抗体。这一步的目的是排除空间位阻明显不匹配、完全无法贴合的抗体。

三、第三阶段：ColabFold 批量中筛（极速版 AFM）

这是整个管线中最核心的计算加速阶段。原生 AFM 在生成多序列比对（MSA）和循环迭代（Recycles）上耗时极长。我们需要使用 ColabFold（AFM 的开源加速版）进行定制化提速。

1. 禁用抗体端的 MSA（关键提速点）

对于抗体链，生成 MSA 极其耗时，且由于抗体框架区高度保守，MSA 对预测抗体-抗原结合界面的特异性贡献很小。

在 ColabFold 中，设置抗体链为 single_sequence（单序列预测，不搜 MSA），只对抗原链运行 MSA 搜索。这可以缩短 70% 的准备时间。
或者使用已构建好的本地数据库（如 ColabFold 的 colabfold_search 配合本地 MMseqs2 数据库），避免在线 API 排队。

2. 调低循环次数（Recycles）

标准 AFM 默认进行 20 次 recycle。在盲筛阶段，建议将参数设置为 --num-recycle 1 或 --num-recycle 3。
关闭模板搜索（--use-templates 0）。抗体结构高度规律，不需要结构模板辅助。

3. 多 GPU 并行调度

编写 Python/Bash 脚本，利用 Ray 或 SLURM 集群管理系统，将抗体-抗原对（以 fasta 文件形式）分发到多个 GPU 节点上并行运行。

四、第四阶段：精准 AFM 评估与多维度数据过滤

通过 ColabFold 筛选后，保留前 1%-5% 的候选物（通常为数百个）。此时，使用标准的 AlphaFold-Multimer (v3) 进行最高精度预测（设置 num-recycle 12-20，启用模板，产生 5 个 model）。

随后，利用以下硬性生物物理学指标进行多维度联合过滤：

1. 界面置信度（Interface PAE / iPAE）

这是评估盲筛对接是否靠谱的最核心指标。

定义：抗原残基与抗体残基之间的预测对齐误差（Predicted Aligned Error, PAE）。
筛选阈值：提取抗原与抗体 CDR 区之间的交叉 PAE 矩阵。iPAE 均值应小于 10 Å。若 iPAE 普遍大于 15 Å，说明 AFM 认为两者虽靠在一起，但相对位置极不稳定，极可能是“假阳性”碰撞。

2. CDR 环区置信度（pLDDT）

尽管天然抗体的 CDR-H3 通常是柔性的，但被抗原“锁死”结合后，其构象应当趋于稳定。
结合态下的 CDR 区 pLDDT 平均值应大于 75（最好 > 85）。若 CDR 区 pLDDT 极低（蓝色变橙黄色），说明该结合界面是强行拉拢的无序结构。

3. 接触界面指标（pdockQ / pdockQ2）

pdockQ 是专门评估多聚体界面质量的综合指标。
通过计算界面内的接触残基数（Distance < 8 Å）以及这些残基的 pLDDT 表现，算出一个 0 到 1 之间的得分。
过滤阈值：pdockQ > 0.5 通常对应高置信度的相互作用；如果 pdockQ > 0.7，结合的可信度极高。

4. 物理合理性过滤（使用第三方工具）

AFM 预测的结构有时存在原子重叠或非物理接触。建议使用 PRODIGY 或 RosettaInterface 对复合物进行快速能量最小化和结合自由能（$\Delta G$）估算。

筛选条件：计算得出的结合自由能 $\Delta G < -10\text{ kcal/mol}$，且埋藏表面积（Buried Surface Area, BSA）$> 800\text{ \AA}^2$。

五、避坑指南与局限性声明

在实操这套管线时，必须保持理性的预期：

构象转变陷阱：天然抗体在未结合状态和结合状态下可能存在显著的构象转变（Induced Fit）。AFM 偶尔无法准确捕获这种动态诱导契合过程，容易导致漏筛。
非特异性黏附：AFM 倾向于将抗体塞进抗原表面的深口袋中。如果你的抗原表面有非常明显的疏水凹槽（通常不是天然表位），AFM 会把大量抗体预测结合在这个区域。这需要结合抗原的先验生物学知识（如遮蔽非特异性位点或对该区域打低分）进行人工纠偏。
糖基化修饰缺失：天然抗原表面往往覆盖有厚厚的聚糖（N-glycosylation），这会阻碍抗体结合。AFM 预测时不考虑糖基化。因此，预测出的高分抗体，在实际湿实验中可能会因为抗原表面的糖屏蔽而失效。务必在三维结构上人工比对糖基化位点（可以通过 PyMOL 叠加上糖后的抗原模型）。

如何用 AlphaFold-Multimer 落地抗原与海量天然抗体文库的盲筛对接管线

一、 第一阶段：文库清洗与代表性序列提取（降维）

二、 第二阶段：快速刚体对接粗筛（可选但强烈推荐）

三、 第三阶段：ColabFold 批量中筛（极速版 AFM）