在AI制药(AIDD)领域,AlphaFold 3毫无疑问是聚光灯下最耀眼的明星。它解决了“结构预测”这一历史性难题。然而,药物研发是一个漫长且复杂的系统工程,从靶点发现、先导化合物筛选、结构优化到ADMET(吸收、分布、代谢、排泄和毒性)性质预测,单靠一个预测结构的AlphaFold是远远不够的。
在实际的AI药物设计管线中,真正与AlphaFold并肩作战、甚至在各自细分环节不可或缺的,是以下几类底层的AI算法模型。
一、 蛋白质从头设计(De Novo Design)的黄金搭档:RFdiffusion + ProteinMPNN
AlphaFold解决的是“已知序列预测结构”的逆问题,而药物设计往往需要“根据特定功能创造全新的蛋白质/抗体”。在这个领域,华盛顿大学David Baker团队开发的 RFdiffusion 和 ProteinMPNN 已经成为事实上的行业标准。
1. RFdiffusion:蛋白质空间的“Midjourney”
传统的蛋白质设计依赖物理力场计算,效率极低且成功率不高。RFdiffusion引入了扩散模型(Diffusion Model),将图像生成领域的去噪逻辑应用到了三维骨架生成上。
- 核心能力:它能够从无序的随机“噪声”出发,一步步“去噪”生成符合物理化学规律的全新蛋白质骨架。
- 应用场景:靶向特定致病蛋白的结合剂(Binder)设计、酶设计以及大分子抗体设计。你可以指定它在某个特定表位(Epitope)上生成紧密结合的界面。
2. ProteinMPNN:骨架到序列的“翻译官”
RFdiffusion生成了完美的蛋白质三维骨架,但没有具体的氨基酸序列,这个骨架就是无源之水。ProteinMPNN 采用图神经网络(GNN)架构,专门解决“逆折叠”问题——即输入一个三维骨架,快速计算出能够稳定折叠成该骨架的氨基酸序列。
- 为什么不可或缺:它的运行速度极快(几秒钟即可生成上百条候选序列),且湿实验(实验验证)成功率较传统方法(如RosettaDesign)提升了数倍至数十倍。目前学术界和工业界基本将“RFdiffusion + ProteinMPNN”作为大分子药物设计的标配工作流。
二、 速度与无监督的代表:ESM-2 / ESMFold(蛋白质语言模型)
尽管AlphaFold预测精度极高,但它依赖多序列比对(MSA)计算,消耗了大量的计算资源和时间,无法处理超大规模的序列筛选。Meta(前身Facebook)AI实验室开发的 ESM-2 改变了这一格局。
1. 蛋白质语言模型(PLM)的逻辑
ESM-2的核心思想是**“把蛋白质当成语言,把氨基酸当成单词”**。通过在数亿条未标记的蛋白质序列上进行自监督预训练,ESM-2掌握了蛋白质进化和物理化学性质的深层“语法”。
- 零样本预测(Zero-shot Prediction):无需任何三维结构信息,仅凭序列,ESM-2就能精准预测突变对蛋白质功能的影响(这在抗体亲和力成熟和耐药性突变预测中至关重要)。
2. ESMFold:秒级结构折叠
基于ESM-2表征开发的ESMFold,在牺牲极小精度的情况下,实现了比AlphaFold 2快 1000倍以上 的结构预测速度。在处理海量宏基因组数据、建立数亿级别蛋白质结构数据库时,ESMFold是目前唯一具有工程可行性的方案。
三、 小分子虚拟筛选的颠覆者:DiffDock(生成式分子对接)
在小分子药物设计中,最核心的一步是让小分子与靶点蛋白精准结合(即“配体-受体对接”)。传统的物理对接软件(如AutoDock Vina、Schrödinger Glide)依赖穷举搜索和经验评分函数,不仅慢,而且在处理柔性口袋时极易失真。
MIT开发的 DiffDock 将分子对接问题转化为一个生成式扩散过程:
- 工作机制:它将分子对接视为在欧氏群 $\text{SE}(3)$ 上的流形扩散。简单来说,它把配体小分子在蛋白质表面的平移、旋转和内部键角的扭转定义为“扩散步骤”,然后通过神经网络学习如何将随机放置的小分子“一步步吸引”到正确的结合口袋和构象中。
- 核心优势:
- 高精度:在盲对接(不知道具体结合口袋位置)任务中,其成功率显著超越传统物理对接软件。
- 速度快:能够进行高通量的虚拟筛选,极大地缩短了从数百万分子库中淘金的时间。
四、 决定药物生死存亡的守门人:Chemprop(性质预测与ADMET)
在制药行业有一句名言:“药效再好,毒性太大也是白搭。” 超过90%的候选药物在临床阶段失败,不是因为它们不结合靶点,而是因为ADMET性质(吸收、分布、代谢、排泄、毒性)不达标。
由MIT团队开发的 Chemprop(基于有向传递图神经网络 D-MPNN)是小分子性质预测领域事实上的标配基准:
- 为什么好用:相比传统的定量构效关系(QSAR)模型,Chemprop不需要人工提取复杂的分子描述符,它直接通过图神经网络自适应地从分子二维拓扑结构中提取特征。
- 实际战绩:2020年,麻省理工团队利用Chemprop在几天内筛选了包含上亿分子的库,成功发现了一种结构全新、能杀死耐药性细菌的超级抗生素 Halicin。这一突破彻底证明了深度图神经网络在性质预测上的恐怖威力。
总结:现代AIDD的协同工作流
在实际的药物研发流水线上,这些模型并不是孤立存在的,而是相互咬合的齿轮:
1. 靶点确立 ➔ [AlphaFold 3 / ESMFold] (解析/预测靶点结构)
2. 大分子设计 ➔ [RFdiffusion + ProteinMPNN] (直接生成全新抗体/靶向结合剂)
3. 小分子筛选 ➔ [DiffDock] (将数百万虚拟小分子与靶点进行高精度对接筛选)
4. 候选物优化 ➔ [Chemprop] (预测筛选出分子的溶解度、毒性、口服生物利用度)
AlphaFold 3拉高了整个行业对AI预测极限的认知,但真正支撑起药物研发日常研发管线的,是这些在速度、生成能力、性质筛查上各司其职的细分算法模型。对于从业者而言,掌握这些模型的组合拳,才是驾驭AI制药的关键。