如何本地免商业授权费部署 AlphaFold 3？（附抗体-抗原复合物预测实操指南）

Google DeepMind 在 2024 年 11 月正式开源了 AlphaFold 3 (AF3) 的源代码及模型权重（针对学术与非商业用途）。这意味着研究人员终于可以摆脱 Web 服务器每天的提交限制，在本地环境中运行这一顶尖的模型，尤其是针对大分子抗体-抗原复合物进行结构预测。

然而，本地部署 AF3 是一个典型的“重度系统工程”，对硬件配置、网络带宽以及工程细节有着极高的要求。本文将为你梳理一套完整的本地免商业授权费部署方案，并针对大分子抗体设计的实际场景，给出输入配置与优化建议。

一、核心硬装准备：你是否具备部署条件？

本地运行 AF3 的最大门槛在于硬件与存储空间。在着手部署前，请先核对以下硬性指标：

1. 显卡（GPU）与显存

最低配置：NVIDIA RTX 3090 / 4090 (24GB 显存)。
- 注意：24GB 显存仅能跑一些小分子或单链蛋白。对于包含重链、轻链及抗原的大分子复合物，极易发生 OOM（显存溢出）。
推荐配置：NVIDIA A100 (80GB) 或 H100 (80GB)。如果是实验室共享服务器，多卡（如 2x A100）能显著提升多构象采样的并行效率。
显卡驱动：CUDA 12.x 及以上（AF3 的底层依赖如 JAX 对 CUDA 版本有较严格要求）。

2. 存储空间（痛点所在）

AF3 的预测精度高度依赖多序列比对（MSA）和模板检索。你需要下载完整的基因与结构数据库：

硬盘类型：必须使用 NVMe SSD。千万不要用机械硬盘（HDD），否则读取几百 GB 的数据库进行 MSA 检索时，I/O 瓶颈会让你崩溃。
容量要求：准备至少 3TB 的可用空间（数据库未解压前约 1.2TB，解压后占用约 2.6TB）。

二、零商业收费部署步骤

由于官方推荐使用 Docker 进行容器化部署，这极大降低了环境冲突的概率。以下为具体部署流程：

第一步：获取模型权重（免费学术授权）

尽管 AF3 开源了，但出于安全考虑，你仍需要向 Google DeepMind 申请权重：

访问 Google DeepMind 的 GitHub 官方仓库（google-deepmind/alphafold3）。
填写学术/非商业使用申请表。通常几分钟到几小时内，你的 Google 账号就会收到确认邮件。
按照邮件指引，下载模型的参数文件（通常通过提供的脚本或 gcloud 工具下载，大小约几十 GB）。

第二步：下载庞大的数据库

官方仓库提供了一个名为 download_all_data.sh 的脚本。在国内网络环境下，由于涉及到 EBI、NCBI 等国外数据库服务器，直接下载极易中断。

优化建议：

使用 tmux 或 screen 后台运行下载任务。
推荐使用支持断点续传的工具（如 aria2c）替代默认的 wget/curl。
如果某些数据库（如 UniRef90 或 BFD）反复下载失败，可尝试寻找国内高校/科研院所的学术镜像源（如清华大学、中国科学院生命科学大科学偏差中心等）。

# 典型的启动下载命令（需要确保磁盘空间 > 3TB）
bash docker/download_all_data.sh /path/to/your/database_dir

第三步：构建与配置 Docker 镜像

确保你的宿主机已安装 docker 和 nvidia-container-toolkit（允许 Docker 容器调用 GPU）。

克隆官方仓库并进入目录：

git clone https://github.com/google-deepmind/alphafold3.git
cd alphafold3

构建 Docker 镜像：

docker build -f docker/Dockerfile -t alphafold3 .

运行测试，确保 GPU 可被容器识别：

docker run --gpus all -it alphafold3 nvidia-smi

三、抗体设计场景实操：如何构建输入

与 AlphaFold 2 使用 .fasta 文件作为输入不同，AlphaFold 3 采用全新的 JSON 格式作为输入描述。JSON 文件不仅定义了氨基酸序列，还定义了链的关系、化学修饰、配体（小分子）以及离子等。

对于抗体-抗原复合物预测，我们需要在 JSON 中定义多条链（重链、轻链、抗原）。

1. 输入 JSON 模板（抗体双链 + 抗原）

假设我们要预测一个经典的 IgG 抗体 Fv 段（重链 + 轻链）与靶点蛋白（抗原）的结合结构，JSON 配置文件 antibody_antigen.json 结构如下：

[
  {
    "name": "antibody_antigen_prediction",
    "modelSeeds": [1],
    "sequences": [
      {
        "protein": {
          "id": "A",
          "sequence": "EVQLVESGGGLVQPGGSLRLSCAASGFTFSDYWMHWVRQAPGKGLEWVA..." 
        }
      },
      {
        "protein": {
          "id": "B",
          "sequence": "DIQMTQSPSSLSASVGDRVTITCRASQDISNYLNWYQQKPGKAPKLLIY..." 
        }
      },
      {
        "protein": {
          "id": "C",
          "sequence": "MNGTEGPNFYVPFSNKTGVVRSPFEAPQYYLAEPWQFSMLAAYMFLLIM..." 
        }
      }
    ],
    "interactions": [
      {
        "interactionType": "PROTEIN_PROTEIN",
        "chains": ["A", "B", "C"]
      }
    ]
  }
]

链 A (id: "A")：通常设为抗体重链可变区（VH）。
链 B (id: "B")：设为抗体轻链可变区（VL）。
链 C (id: "C")：设为你的靶点抗原（Antigen）序列。
modelSeeds：控制随机种子的列表。对于难预测的抗体 CDR3 环区（H3 loop），建议设置多个不同的 Seed 进行多次采样（例如 [1, 2, 3, 4, 5]），然后挑选置信度评分（pLDDT 和 iPTM）最高的结构。

2. 启动预测任务

配置好 JSON 后，通过挂载本地数据库和模型参数路径来运行 Docker 容器：

docker run --gpus all \
  -v /path/to/your/database_dir:/app/databases \
  -v /path/to/your/model_weights:/app/models \
  -v $(pwd):/app/workspace \
  alphafold3 \
  python3 /app/alphafold3/run_alphafold.py \
  --json_path=/app/workspace/antibody_antigen.json \
  --output_dir=/app/workspace/output \
  --model_dir=/app/models \
  --db_dir=/app/databases

四、抗体设计场景下的调优与避坑指南

1. 解决抗体 H3 Loop 预测不准的问题

抗体的重链第三互补决定区（CDR-H3）是决定抗原特异性的最关键区域，也是结构生物学界公认的预测难点。

策略：在预测输出的 .cif 或 .pdb 文件中，重点关注 H3 区域的 pLDDT 值（局部置信度评分）。如果低于 70，说明该区域构象具有高度柔性或预测不可信。
优化：可以通过增加 modelSeeds 的数量（采样 20 个甚至 50 个构象），再利用聚类分析（Clustering）找出能量更低、构象更稳定的合理状态。

2. 避免显存溢出 (OOM) 的替代方案

如果你的抗原分子量巨大（例如多聚体病毒糖蛋白），加上抗体后，24GB 的 3090/4090 显卡必然会 OOM。

裁剪抗原：在不破坏抗原表位（Epitope）完整性的前提下，尽量裁剪掉与抗体结合无关的抗原宿主结构域（例如只保留受体结合域 RBD）。
使用 CPU 运行 MSA：把耗费内存的序列比对阶段（Jackhmmer/HHblits）放在宿主机 CPU 上多线程运行，仅将推理阶段（Inference）交给 GPU。

3. 学术免费版的限制与合规性

虽然这套部署方案不产生任何软件商业授权费，但请务必注意：DeepMind 提供的官方权重受其《非商业使用协议》约束。
如果你的研究属于纯学术研究、非营利性科研，可以完全合规免费使用。
如果你是药企、生物科技公司用于商业管线开发，直接使用官方权重可能存在法律风险。在此情况下，可以关注开源社区使用开放数据训练的替代模型（如 OpenFold 团队正在跟进的 AF3 兼容版本，或使用 ESM3 等大模型进行零样本/微调预测）。