2024 年 5 月,DeepMind 在《Nature》上发表了 AlphaFold 3(AF3),宣称其不仅能预测蛋白质,还能预测 DNA、RNA 以及化学小分子配体的复合物结构。然而,伴随这项里程碑式成果而来的,不是欢呼,而是一场结构生物学界与计算化学界的集体震怒。
原因很简单:DeepMind 违背了现代科学的基本契约——它发表了论文,却扣留了源代码和模型权重。
取而代之的,是一个功能被严重阉割的“AlphaFold Server”网页端。研究人员每天只能提交有限的预测任务,更致命的是,用户无法输入自定义的化学小分子。这无异于告诉全世界的药企和学术界:“我们做出了最棒的药物发现工具,但你们只能看,不能拿它来筛药,除非找我们的商业子公司 Isomorphic Labs 合作。”
半年过去,这场“半开源”的拉锯战在 2024 年 11 月迎来了戏剧性的转折:DeepMind 顶不住压力,正式在 GitHub 上开源了 AlphaFold 3 的学术源代码和模型参数。
从最初的“高傲闭源”到最终的“被迫开源”,AlphaFold 3 这半年的风波,几乎是现代 AI 科研生态中“商业利益、学术伦理与开源社区”三方博弈的最典型样本。
逼仄的“半开源”:为什么学术界不买账?
在 AF3 发布之初,DeepMind 给出不开源代码的理由是“出于安全和商业平衡的考量”。但学术界对此嗤之以鼻。
对于干实验(计算生物学)和湿实验(台前实验)的研究者来说,一个只能通过网页版交互的 AI 模型,其科研价值会缩水 80% 以上。
- 无法本地部署与管线整合: 现代生物信息学研究是高度自动化的。科学家需要将结构预测模型嵌入到自己的高通量筛选管线、分子动力学模拟或突变设计流程中。网页端那点每天限制次数的 API,根本无法支撑大规模的计算筛药。
- 关键功能的“物理隔离”: 最初的 AlphaFold Server 禁用了自定义配体(Ligands)的输入。这意味着,如果你设计了一个全新的抗癌候选小分子,想用 AF3 看看它与靶点蛋白的结合模式,系统会直接报错拒绝。这无异于断了小分子药物研发的核心链路。
- 科学的可重复性危机: 《Nature》等顶刊一直倡导“同行评议与结果可重复”。DeepMind 发表了成果却不给代码,相当于“我证明了哥德巴赫猜想,但步骤保密,你们信我就行”。这直接引发了包括 2024 年诺贝尔化学奖得主 David Baker 在内的数十位顶尖学者联名抗议,指责《Nature》为巨头大开绿灯,破坏了学术规范。
社区的自救:竞品倒逼与去中心化生态的胜利
如果故事只停留在学术界的口水战中,DeepMind 或许不会这么快妥协。真正逼迫巨头低头的,是开源社区极其强悍的**“平替能力”**。
在 DeepMind 拒绝开源的这半年里,全球的计算生物学团队和 AI 创业公司没有干等着,而是掀起了一场轰轰烈烈的“反向工程”运动。
- Chai-1 的奇袭: 2024 年 9 月,AI 制药新星 Chai Discovery 发布了多模态分子结构预测模型 Chai-1。该模型在不依赖多序列比对(MSA)的情况下,依然在多项基准测试中达到了媲美甚至超越 AF3 的水平。最重要的是,他们直接提供了免费的本地推理代码,且允许商业用途。
- Boltz-1 的补刀: 紧接着,由 MIT、麦吉尔大学等多家机构联合成立的非营利组织 Genesis Therapeutics 团队推出了 Boltz-1。这是一个完全开源(MIT 协议)的 AF3 复刻版本。任何人都可以自由下载、训练、修改并将其用于商业药物理论验证。
Chai-1 和 Boltz-1 的出现,直接瓦解了 DeepMind 的技术垄断。
科学家们发现,即使没有 Google 施舍的网页端,社区自己造的轮子也足够好用,甚至在商业限制上更宽松。如果 DeepMind 继续死守 AF3,它的学术影响力将被迅速边缘化,未来所有基于 AF3 生态的二次开发(如蛋白质设计、结合能预测等)都将转移到开源竞品之上。
开源不是因为高尚,而是因为闭源的代价超出了承受范围。 在社区力量的逼迫下,DeepMind 最终选择在 11 月交出代码,以保住其在生命科学领域的学术盟主地位。
重新定义的科研生态:阵痛与新常态
AlphaFold 3 的这段曲折历程,给未来的科研生态留下了深远的影响,也揭示了 AI 时代科学研究的几个残酷真相。
1. 顶刊学术规范的失守与重构
AF3 事件撕开了顶刊在科技巨头面前的软肋。《Nature》为了抢先发表重磅成果,不惜妥协其一贯坚持的“开源可重复”原则。这种“特权”引发了学术界的警惕。未来,科学界对于“无代码、无权重”的 AI 论文,容忍度将会降到极低。社区自发的抵制和倒逼,正在重新确立“无开源,不科学”的底层共识。
2. 学术界与商业巨头的“算力与数据”不对等
AlphaFold 1 和 2 的成功,本质上是 DeepMind 利用巨量算力和工程能力,对学术界几十年积累的 PDB(蛋白质结构数据库)数据进行了一次高效率的“收割”。
到了第三代,巨头开始考虑商业变现,试图将公共数据训练出来的模型转化为商业护城河。这种“用学术界的数据喂饱自己,再对学术界收费/限流”的模式,让科学界产生了强烈的幻灭感。这也促使学术界在未来进行数据共享时,可能会探索更加复杂的授权协议(例如,要求使用该数据开发的商业模型必须开源)。
3. 多极化的“Bio-AI”新格局
如果 DeepMind 在 5 月就完全开源了 AF3,那么 Chai-1、Boltz-1 以及国内众多优秀的复刻模型可能根本没有出头的机会。正因为这半年的“真空期”,客观上刺激了整个生命科学 AI 社区的多样性。
现在,我们不再仅仅依赖 DeepMind 一家。我们拥有了基于不同架构(如 ESM 语言模型路线、Diffusion 扩散模型路线)的多元化工具库。这种去中心化的格局,比“一家独大”的生态要健康得多。
结语:不可逆转的开源大势
虽然 DeepMind 最终开源了 AF3,但其协议依然是 非商业用途(Non-commercial Use Only)。对于药企来说,想要合法地将 AF3 用于管线,依然面临合规风险。这也给 Boltz-1 等采用 MIT/Apache 2.0 协议的真·完全开源模型留下了巨大的商业化空间。
AlphaFold 3 的风波证明了一件事:在生物医药这样一个关乎人类生命福祉的底层领域,科学共同体对“开放与共享”的执念,远远超出了单一商业巨头的掌控力。
巨头或许可以凭借算力优势领先一步,但只要它试图垄断通往真理的道路,开源社区就会用最快的速度,在旁边重新开辟出一条宽敞的大道。