在 AI 蛋白质设计领域,RFdiffusion 毫无疑问是目前的明星工具。但很多刚入行或者跨界过来的同学,在跑完 RFdiffusion 拿到一堆 .pdb 格式的结构文件后,往往会一脸懵逼:
“这个结构到底折叠得好不好?”
“怎么看它是不是一个‘垃圾垃圾’设计?”
“文献里天天提的 pLDDT、RMSD 到底去哪里看?”
今天这篇干货,就用最通俗的语言,手把手教你如何看懂 RFdiffusion 输出的结构质量。
核心前提:你拿到的 RFdiffusion 原始 PDB,其实“不能直接用”
这是新手最容易踩的第一个坑。
RFdiffusion 本质上只设计“骨架”(Backbone)。它输出的 PDB 文件,通常只包含碳 alpha(CA)、碳(C)、氮(N)、氧(O)等主链原子,连侧链(Sidechains)都没有,或者默认填充的都是丙氨酸(Alanine)或甘氨酸(Glycine)。
所以,你不能直接去测定这个原始 PDB 的能量或质量。要评估一个设计是否成功,标准的 AI 蛋白质设计工作流是这样的:
- RFdiffusion:生成主链骨架(PDB 1)。
- ProteinMPNN:根据这个骨架,逆向设计出适合它的氨基酸序列(Sequence)。
- AlphaFold2 / ColabFold / ESMFold:用结构预测工具,去预测这条新序列的结构(PDB 2)。
- 对比评估:对比 PDB 1(设计图纸) 和 PDB 2(实际建出来的房子) 的吻合度。
我们口中常说的“评估 RFdiffusion 结构质量”,实际上评估的是第 3 步和第 4 步产生的数据。
必须掌握的三大核心硬指标
评估一个设计好坏,主要看以下三个指标。如果你是用官方的 ColabFold 或主流的自动化脚本跑的验证,这些指标会直接写在输出的 .json 文件里,或者塞在 PDB 文件的特定列中。
1. pLDDT(预测局部结构可信度)
- 大白话:AI 对自己预测的这个局部结构有多大把握?
- 数值范围:0 - 100。
- 怎么看质量:
- pLDDT > 90:极高置信度。结构非常稳定,通常具有明确的二级结构(Alpha螺旋或Beta折叠),大概率能在湿实验中表达并折叠。
- 80 - 90:高置信度。也是非常优秀的设计。
- 70 - 80:中等置信度。可能存在一些灵活的 Loop 环区,如果是整体结构还可以接受,但如果是核心区域,需要小心。
- < 70:低置信度。大概率是无序区(IDR)或者干脆是面条状的“垃圾设计”,可以直接丢弃。
- 避坑指南:在验证后的 PDB 文件中,pLDDT 的数值通常被写在 B-factor(B因子)那一列。你可以直接在 PyMOL 里输入
spectrum b, rainbow,如果结构大部分呈现红橙色(高B值,在这里代表高pLDDT),说明质量极佳。
2. RMSD(均方根偏差)
- 大白话:预测出来的结构(PDB 2),和 RFdiffusion 最开始设计的骨架(PDB 1),长得有多像?
- 数值单位:埃(Å,$10^{-10}$ 米)。
- 怎么看质量:
- RMSD < 1.0 Å:完美契合。说明 ProteinMPNN 找到的序列,完美锁定了 RFdiffusion 设计的骨架。
- 1.0 Å - 2.0 Å:非常优秀。结构微调在合理范围内。
- 2.0 Å - 3.5 Å:勉强接受。结构发生了一定程度的漂移,需要具体看是局部 Loop 区飘了,还是整体骨架散了。
- > 3.5 Å:失败。说明这个骨架序列无法稳定支撑,预测出来的结构已经“变形”了。
3. PAE / iPAE(预测对齐误差 / 界面预测对齐误差)
- 大白话:如果你的设计涉及相互作用(比如设计一个 Binder 去结合靶点蛋白),这个指标代表 AI 对两块结构相对位置的把握有多大。
- 数值单位:埃(Å)。
- 怎么看质量:
- iPAE < 10 Å(越低越好):说明结合界面非常稳固,相互作用模式是高可信的。
- iPAE > 15 Å:界面基本不可信,两个蛋白可能只是虚假地靠在一起,湿实验大概率没有结合力。
小白实操指南:如何快速筛选你的 PDB?
假设你用 RFdiffusion 跑了 1000 个 candidate(候选结构),并用 ProteinMPNN + ColabFold 跑完了验证。你会得到一堆 .pdb 和 .json 文件。请按以下步骤快速过滤:
第一步:用脚本批量过滤(初筛)
不要一个一个去点开看。写个简单的 Python 脚本(或者让 ChatGPT 帮你写一个),提取所有 JSON 文件里的 plddt 和 rmsd。
- 过滤条件设为:
mean_plddt > 85且rmsd < 1.5。 - 这一步通常能帮你过滤掉 80% 的劣质设计。
第二步:PyMOL 视觉检查(精筛)
把通过初筛的 PDB(设计图 design.pdb 和预测图 prediction.pdb)拖入 PyMOL 中。
- 对齐结构:在命令行输入
align prediction, design。 - 看重合度:观察两者是否严丝合缝。重点看你的活性位点或者功能区域(如 Binding interface)是否完全重合。
- 看表面疏水性:输入
color gray; show surface。检查暴露在外部的表面是否含有过多的疏水氨基酸(如果表面太油,蛋白在水里容易聚集沉淀,无法表达)。 - 检查不合理的空腔或碰撞:看看内部有没有奇怪的空洞,或者侧链挤在一起(Clash)的情况。
第三步:辅助工具推荐
如果你不习惯写代码,可以使用以下可视化工具:
- 3Dmol.js / FoldTo3D:网页端快速预览 PDB 并按 pLDDT 着色。
- ColabFold 默认输出的 Alignment Error 矩阵图:那种蓝色的大方块图。左上到右下的对角线越蓝、越窄,说明结构越稳定。
总结:一个“能走通湿实验”的优秀设计长啥样?
最后,给你一个优秀 RFdiffusion 衍生设计的“标准画像”,对照着这个标准去挑你的 PDB,准没错:
- 整体 pLDDT > 88,核心骨架区一片通红(PyMOL B-factor 模式下)。
- 与原始设计对比的 RMSD < 1.2 Å。
- 没有奇奇怪怪的超长 Loop(除非是功能需要)。
- 如果是 Binder,界面接触面积(Interface Area)足够大,且 iPAE 极低。
搞科研不怕失败,蛋白质设计本身就是个概率游戏。用好这套指标筛选系统,能帮你省下大把的湿实验经费和时间!