在生物医药和 AI 交叉领域,AlphaFold 3(AF3)的发布无疑是一场地震。它不仅能预测蛋白质结构,还能预测蛋白质与小分子配体、DNA、RNA 的复合物结构。
这时候,很多行外人(甚至不少投资人)都会产生一个极其自然的疑问:既然电脑(干实验)已经能把分子怎么跟靶点结合预测得一清二楚了,为什么那些头部的 AI 制药公司(AIDD)每年还要花大钱去建湿实验室(Wet Lab),去搞高通量筛选(HTS)?这不是在重复造轮子,浪费钱吗?
作为一名在 AI 制药深水区摸爬滚打多年的从业者,我想用最直白的大实话告诉你:因为“预测结合姿态”和“把这个分子做成药”,中间隔着一整条马里亚纳海沟。
如果仅仅靠 AF3 就能包办药物研发,那现在全球的药企都可以就地解散,只留下服务器机房了。
以下是为什么 AI 制药公司必须死磕“湿实验高通量筛选”的深层原因。
1. “能结合”不等于“有活性”,更不等于“亲和力强”
AlphaFold 3 解决的核心问题是**“姿态预测”(Pose Prediction)**——也就是如果这个小分子和这个蛋白质结合,它们大概率会以什么几何姿势叠在一起。
但药物研发的核心问题是:它结合得有多紧(亲和力,Affinity),以及结合之后能不能起作用(活性,Efficacy)。
- 亲和力的微小差距,决定了药效的生死。
在定量药理学中,结合常数($K_D$ 或 $IC_{50}$)差一个数量级,所需的给药剂量可能就差十倍。AF3 无法精准给出热力学上的结合自由能($\Delta G$),它分不清一个分子到底是 $1\ \mu\text{M}$(微摩尔,通常不能当药)的弱结合剂,还是 $1\ \text{nM}$(纳摩尔,优秀的候选药)的强效结合剂。 - 结合了不等于能治病。
有些分子跟受体结合了,能激活受体(激动剂);有些结合了,能抑制受体(拮抗剂);还有些结合了,什么都没发生,只是占了个位置(无活性结合物)。AF3 能够画出它们在一起的静态图,但无法准确判断这个分子进去之后,是拉动了信号通路开关,还是把开关锁死了。
这些细微的物理化学和生物学响应,必须通过湿实验的细胞活性测试或蛋白水平测试(如 SPR、ITC)来测定。
2. 虚拟筛选的“假阳性”高到让你怀疑人生
在没有湿实验验证的情况下,单凭计算机做虚拟筛选(Virtual Screening),结果往往是一场灾难。
你用物理计算或者 AI 模型筛出来 1000 个“看起来极有可能结合”的分子,觉得胜利在望。但当你把这 1000 个分子买回来,在湿实验室里一测,会发现:
- 950个分子根本不溶于水,一加进测试体系就析出沉淀。
- 40个分子是“泛干扰化合物”(PAINS),它们在实验里表现出活性,不是因为它们特异性结合了靶点,而是因为它们把蛋白变性了,或者产生了化学荧光干扰。
- 剩下的10个里,可能只有1到2个是真的微弱结合。
这就是高达 99% 的假阳性率。如果不用高通量筛选(HTS)在湿实验里快速把这 99% 的垃圾分子过滤掉,后续的研发就是空中楼阁。湿实验是戳破计算机幻觉的“终极裁判”。
3. 药物研发的终极Boss:成药性(ADMET)
在药物化学界有一句名言:“毒死癌细胞最快的办法是用开水,但开水不能当药。”
一个分子能紧紧黏在靶点上,只是万里长征第一步。要成为一个能吃进肚子里、治好病的药,它必须闯过以下关卡(统称 ADMET):
- 吸收(Absorption): 能不能穿过肠道屏障,进入血液?
- 分布(Distribution): 能不能精准跑到病灶,而不是堆积在肝脏或肾脏造成器官衰竭?能不能穿过血脑屏障(如果是脑部疾病)?
- 代谢(Metabolism): 会不会被肝药酶瞬间清除?代谢产物有没有毒?
- 排泄(Excretion): 能不能正常排出体外?
- 毒性(Toxicity): 会不会抑制心肌上的 hERG 通道导致心脏骤停?
对不起,AlphaFold 3 对上述任何一个问题都无能为力。
解决 ADMET 问题需要大量的体外、体内湿实验。AI 制药公司做高通量筛选,很大一部分精力是在筛这些物理化学性质和早期毒性,而不仅仅是筛结合力。
4. 湿实验是 AI 的“燃料生命线”
AI 制药公司要想保持竞争优势,绝对不能和大家使用同样的开源数据。
如果所有人都用 PDB(蛋白质三维结构数据库)里那点公开数据去跑 AF3,那么所有人做出来的药都会高度同质化。数据壁垒,才是 AI 制药公司的核心护城河。
- 主动学习(Active Learning)闭环:
现代 AI 制药的标配流程是:计算预测 -> 湿实验合成与测试 -> 产生新数据 -> 反哺并训练 AI 模型 -> 再次计算。
在这个闭环中,湿实验 HTS 是产生高质量、标准化、私有化训练数据的“超级工厂”。没有这个工厂源源不断地供给“燃料”,AI 模型的预测精度很快就会遇到天花板(即所谓的 Overfitting 和域外泛化失败)。 - 垃圾进,垃圾出(Garbage in, Garbage out):
公开文献里的数据充满了噪音和偏差(不同实验室、不同操作标准得出的数据根本无法直接比较)。药企必须自己用标准化的高通量流水线(机器人机械臂)在相同条件下测出一万个化合物的活性,这批干净、一致的数据对 AI 的提升,远超十亿级的互联网公开噪声数据。
5. 真实的生物学是“动态的”
AlphaFold 3 虽然预测复合物很强,但它本质上给出的仍然是一个能量相对最低的“静态快照”(Snapshot)。
而真实的生命体和蛋白质是高度动态的。蛋白质就像一个在不停蠕动、变形的机器,它有无数个“瞬态”和“隐蔽口袋”(Cryptic Pockets)。很多时候,药物分子是在蛋白质运动到某一个特定姿态的百万分之一秒内塞进去,然后锁死它的。
要捕捉这种动态变化,虽然可以用分子动力学(MD)模拟,但计算量大到令人发指,且准确度受限。在湿实验中,通过高通量的时间分辨荧光、核磁共振(NMR)或者冷冻电镜(Cryo-EM)去直接筛选和观察,往往比在电脑里干算要靠谱得多、也快得多。
结语
不要被科技媒体上“AI 颠覆制药”的标题党带偏了。
真实的 AI 制药行业正在经历从“纯计算(Dry-lab only)”向“干湿深度融合(Dry-Wet Integration)”的集体转向。
AlphaFold 3 扮演的角色是“超强的GPS地图”,它告诉你宝藏大概在哪个山头、什么方位,省去了你满世界瞎转的时间。
但要把宝藏(真正的临床新药)从坚硬的岩石里挖出来,你依然需要湿实验这把沉重、昂贵、却无比踏实的“工业钻头”。 砸巨资做高通量筛选,不是因为 AI 没用,恰恰是为了让 AI 真正落地,不至于沦为 PPT 上的科学幻想。