不用A100也能跑！如何利用免费 Google Colab 运行 AlphaFold 3 社区修改版？

随着 Google DeepMind 正式开源 AlphaFold 3 (AF3) 的代码和模型权重，结构生物学界迎来了一波狂欢。但狂欢之余，残酷的硬件现实摆在面前：官方版的 AF3 运行需要下载近 2TB 的基因数据库，且本地运行极度依赖高显存的专业显卡（如 A100/H100）。

对于大多数学生和独立研究者来说，这几乎是无法逾越的门槛。

好在开源社区的力量是强大的。目前，已经有开发者参照 ColabFold 的思路，将 AF3 进行了“轻量化改造”——利用云端 MMseqs2 服务器替代本地巨大的数据库检索，并将推理代码适配到了 Google Colab 的免费 T4 GPU 上。

本文将手把手带你跑通这个流程，让你不花一分钱，用免费的 Colab 就能预测蛋白质-配体-核酸的复合物结构。

一、为什么免费 Colab 能跑 AF3？（原理解析）

官方版 AF3 之所以吃配置，主要有两个瓶颈：

多序列比对（MSA）阶段：需要检索巨型的本地数据库（BFD, Uniref90, MGnify 等），这需要极高的 CPU 性能和数 TB 的固态硬盘。
模型推理阶段：扩散模型（Diffusion Module）的引入使得显存开销剧增。

社区改造版（通常基于社区维护的 AlphaFold3-Colab 或类似分叉项目）的核心优化在于：

云端化 MSA：将序列提交给由德国超算中心维护的 MMseqs2 API，在云端快速生成 MSA 文件并返回，直接省去了本地数 TB 数据库的硬件需求。
显存优化：通过启用 PyTorch 的梯度检查点（Gradient Checkpointing）和半精度（FP16/BF16）推理，将显存占用压低到 15GB 左右，刚好可以塞进 Colab 免费提供的 Tesla T4 显卡中。

二、实操步骤：手把手教你运行

1. 准备工作

一个 Google 账号。
打开 Google Drive（确保有至少 5GB 的剩余空间用于保存结果）。
科学的上网环境。

2. 获取并打开 Colab 笔记本

目前社区主流且稳定的修改版 Notebook 可以通过 GitHub 的开源项目找到。

步骤：在浏览器中打开以下推荐的 Colab 链接（若链接失效，可在 GitHub 搜索 AlphaFold3 Colab 或 Ligo Biosciences 相关的开源库）：

注意：由于 DeepMind 的官方模型权重限制，首次运行通常需要你同意学术使用协议并获取一个 Hugging Face Token。

3. 配置运行环境 (Runtime)

打开 Colab 后，第一步必须确认你的硬件加速器：

点击右上角的 “连接” (Connect)。
点击菜单栏的 “代码执行程序” (Runtime) -> “更改运行时类型” (Change runtime type)。
在“硬件加速器”中选择 T4 GPU（免费版标准配置），保存。

4. 关键步骤：输入你的分子数据

与 AlphaFold 2 使用简单的 FASTA 格式不同，AlphaFold 3 使用 JSON 格式作为输入，因为它可以同时描述蛋白质、DNA、RNA、配体（小分子）和离子。

在 Colab 的输入框中，你需要配置你的输入 JSON。以下是一个典型的蛋白质-小分子配体复合物的输入模板：

[
  {
    "name": "Target_Complex",
    "sequences": [
      {
        "protein": {
          "id": ["A"],
          "sequence": "MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAGQE"
        }
      },
      {
        "ligand": {
          "id": ["B"],
          "ligand": "GDP" 
        }
      }
    ]
  }
]

(注：GDP 为配体的 CCD 码，AF3 内置了常见的小分子配体库。)

5. 逐步运行 Cell

Colab 笔记本通常分为以下几个 Cell（单元格），依次点击播放按钮运行：

Step 1: 环境安装 (Setup)
此步骤会克隆修改版的代码，并安装必要的依赖包（如 PyTorch、Biopython 等）。由于需要编译部分 C++ 代码，通常需要 3-5 分钟。
Step 2: 登录 Hugging Face 并下载权重
填入你的 Hugging Face Token，脚本会自动从受保护的仓库下载 AlphaFold 3 的官方权重（约 10GB）。由于 Colab 连 Hugging Face 速度极快，这一步大约需要 1-2 分钟。
Step 3: 运行 MMseqs2 生成 MSA
这一步你的序列会被发送到云端。通常几百个残基的蛋白质，在 1 分钟内就能完成比对并下载回 Colab。
Step 4: 模型推理 (Inference)
这是最核心的一步。免费版的 T4 显卡会全载运行。由于启用了显存优化，你会看到显存占用接近 15GB 的临界点，但只要你的蛋白质总长度不超过限制，它就能安全跑完。
Step 5: 结果可视化与下载
运行完成后，Notebook 会使用 Py3DMol 直接在网页中渲染出预测的 3D 结构，并生成一个 .zip 压缩包供你下载，里面包含最关键的 .cif 结构文件以及置信度评估（pLDDT 和 ipTM 分数）。

三、免费 T4 显卡的“生存极限”（重要避坑指南）

免费的 T4 GPU 虽然真香，但天下没有免费的午餐，它的算力和显存极其有限。为了防止报错中断，你必须了解以下物理限制：

长度限制（显存瓶颈）：
- 安全线：单条序列或复合物总长度在 400 个氨基酸残基以内，基本可以 100% 成功运行。
- 极限线：500 - 600 个残基。超过这个长度，极大概率会触发 Out of Memory (OOM) 显存溢出错误导致任务崩溃。
- 如果你需要预测超大复合物，必须氪金使用 Colab Pro 挂载 A100 (40GB/80GB) 显卡。
断连限制（时间瓶颈）：
- 免费版 Colab 的单次连续运行限制在几个小时内，且如果网页无操作（Idle）超过 15-30 分钟，系统会自动断开连接，清空所有数据。
- 对策：运行 Step 4 推理时，不要关闭网页，偶尔点一下页面防止被判定为挂机。
配体（Ligand）的限制：
- AF3 虽然支持任意小分子，但在 Colab 修改版中，由于没有本地全量数据库支持，非标准配体（没有常用 CCD 码的小分子）需要手动提供 SDF 格式或 SMILES。确保你的输入 JSON 格式完全正确。

四、总结与建议

通过社区修改版的 Colab 折腾方案，我们成功把一个“高岭之花”的计算生物学神兵利器，变成了人人皆可白嫖的日常工具。

如果你只是想验证几个几百残基的常规靶点复合物：免费的 Colab 配合 MMseqs2 是最完美的方案，效率甚至比你自己在本地折腾配置高得多。
如果你有高频、大批量的预测需求，或者需要预测超大体系：建议租用国内算力云（如无影、AutoDL 等），租用单张 RTX 4090 或 A100，使用相同的社区修改版代码进行本地容器化部署。

不用A100也能跑！如何利用免费 Google Colab 运行 AlphaFold 3 社区修改版？

一、 为什么免费 Colab 能跑 AF3？（原理解析）

二、 实操步骤：手把手教你运行