HOOOS

RFdiffusion设计的蛋白质怎么看质量?小白保姆级PDB评估指标拆解

0 3 基迪奥小助手 蛋白质设计PDB结构评估
Apple

在 AI 蛋白质设计领域,RFdiffusion 毫无疑问是目前的明星工具。但很多刚入行或者跨界过来的同学,在跑完 RFdiffusion 拿到一堆 .pdb 格式的结构文件后,往往会一脸懵逼:

“这个结构到底折叠得好不好?”
“怎么看它是不是一个‘垃圾垃圾’设计?”
“文献里天天提的 pLDDT、RMSD 到底去哪里看?”

今天这篇干货,就用最通俗的语言,手把手教你如何看懂 RFdiffusion 输出的结构质量。


核心前提:你拿到的 RFdiffusion 原始 PDB,其实“不能直接用”

这是新手最容易踩的第一个坑。

RFdiffusion 本质上只设计“骨架”(Backbone)。它输出的 PDB 文件,通常只包含碳 alpha(CA)、碳(C)、氮(N)、氧(O)等主链原子,连侧链(Sidechains)都没有,或者默认填充的都是丙氨酸(Alanine)或甘氨酸(Glycine)。

所以,你不能直接去测定这个原始 PDB 的能量或质量。要评估一个设计是否成功,标准的 AI 蛋白质设计工作流是这样的:

  1. RFdiffusion:生成主链骨架(PDB 1)。
  2. ProteinMPNN:根据这个骨架,逆向设计出适合它的氨基酸序列(Sequence)。
  3. AlphaFold2 / ColabFold / ESMFold:用结构预测工具,去预测这条新序列的结构(PDB 2)。
  4. 对比评估:对比 PDB 1(设计图纸)PDB 2(实际建出来的房子) 的吻合度。

我们口中常说的“评估 RFdiffusion 结构质量”,实际上评估的是第 3 步和第 4 步产生的数据


必须掌握的三大核心硬指标

评估一个设计好坏,主要看以下三个指标。如果你是用官方的 ColabFold 或主流的自动化脚本跑的验证,这些指标会直接写在输出的 .json 文件里,或者塞在 PDB 文件的特定列中。

1. pLDDT(预测局部结构可信度)

  • 大白话:AI 对自己预测的这个局部结构有多大把握?
  • 数值范围:0 - 100。
  • 怎么看质量
    • pLDDT > 90:极高置信度。结构非常稳定,通常具有明确的二级结构(Alpha螺旋或Beta折叠),大概率能在湿实验中表达并折叠。
    • 80 - 90:高置信度。也是非常优秀的设计。
    • 70 - 80:中等置信度。可能存在一些灵活的 Loop 环区,如果是整体结构还可以接受,但如果是核心区域,需要小心。
    • < 70:低置信度。大概率是无序区(IDR)或者干脆是面条状的“垃圾设计”,可以直接丢弃。
  • 避坑指南:在验证后的 PDB 文件中,pLDDT 的数值通常被写在 B-factor(B因子)那一列。你可以直接在 PyMOL 里输入 spectrum b, rainbow,如果结构大部分呈现红橙色(高B值,在这里代表高pLDDT),说明质量极佳。

2. RMSD(均方根偏差)

  • 大白话:预测出来的结构(PDB 2),和 RFdiffusion 最开始设计的骨架(PDB 1),长得有多像?
  • 数值单位:埃(Å,$10^{-10}$ 米)。
  • 怎么看质量
    • RMSD < 1.0 Å:完美契合。说明 ProteinMPNN 找到的序列,完美锁定了 RFdiffusion 设计的骨架。
    • 1.0 Å - 2.0 Å:非常优秀。结构微调在合理范围内。
    • 2.0 Å - 3.5 Å:勉强接受。结构发生了一定程度的漂移,需要具体看是局部 Loop 区飘了,还是整体骨架散了。
    • > 3.5 Å:失败。说明这个骨架序列无法稳定支撑,预测出来的结构已经“变形”了。

3. PAE / iPAE(预测对齐误差 / 界面预测对齐误差)

  • 大白话:如果你的设计涉及相互作用(比如设计一个 Binder 去结合靶点蛋白),这个指标代表 AI 对两块结构相对位置的把握有多大。
  • 数值单位:埃(Å)。
  • 怎么看质量
    • iPAE < 10 Å(越低越好):说明结合界面非常稳固,相互作用模式是高可信的。
    • iPAE > 15 Å:界面基本不可信,两个蛋白可能只是虚假地靠在一起,湿实验大概率没有结合力。

小白实操指南:如何快速筛选你的 PDB?

假设你用 RFdiffusion 跑了 1000 个 candidate(候选结构),并用 ProteinMPNN + ColabFold 跑完了验证。你会得到一堆 .pdb.json 文件。请按以下步骤快速过滤:

第一步:用脚本批量过滤(初筛)

不要一个一个去点开看。写个简单的 Python 脚本(或者让 ChatGPT 帮你写一个),提取所有 JSON 文件里的 plddtrmsd

  • 过滤条件设为mean_plddt > 85rmsd < 1.5
  • 这一步通常能帮你过滤掉 80% 的劣质设计。

第二步:PyMOL 视觉检查(精筛)

把通过初筛的 PDB(设计图 design.pdb 和预测图 prediction.pdb)拖入 PyMOL 中。

  1. 对齐结构:在命令行输入 align prediction, design
  2. 看重合度:观察两者是否严丝合缝。重点看你的活性位点或者功能区域(如 Binding interface)是否完全重合。
  3. 看表面疏水性:输入 color gray; show surface。检查暴露在外部的表面是否含有过多的疏水氨基酸(如果表面太油,蛋白在水里容易聚集沉淀,无法表达)。
  4. 检查不合理的空腔或碰撞:看看内部有没有奇怪的空洞,或者侧链挤在一起(Clash)的情况。

第三步:辅助工具推荐

如果你不习惯写代码,可以使用以下可视化工具:

  • 3Dmol.js / FoldTo3D:网页端快速预览 PDB 并按 pLDDT 着色。
  • ColabFold 默认输出的 Alignment Error 矩阵图:那种蓝色的大方块图。左上到右下的对角线越蓝、越窄,说明结构越稳定。

总结:一个“能走通湿实验”的优秀设计长啥样?

最后,给你一个优秀 RFdiffusion 衍生设计的“标准画像”,对照着这个标准去挑你的 PDB,准没错:

  1. 整体 pLDDT > 88,核心骨架区一片通红(PyMOL B-factor 模式下)。
  2. 与原始设计对比的 RMSD < 1.2 Å
  3. 没有奇奇怪怪的超长 Loop(除非是功能需要)。
  4. 如果是 Binder,界面接触面积(Interface Area)足够大,且 iPAE 极低。

搞科研不怕失败,蛋白质设计本身就是个概率游戏。用好这套指标筛选系统,能帮你省下大把的湿实验经费和时间!

点评评价

captcha
健康