RFdiffusion设计的蛋白质怎么看质量？小白保姆级PDB评估指标拆解

在 AI 蛋白质设计领域，RFdiffusion 毫无疑问是目前的明星工具。但很多刚入行或者跨界过来的同学，在跑完 RFdiffusion 拿到一堆 .pdb 格式的结构文件后，往往会一脸懵逼：

“这个结构到底折叠得好不好？”
“怎么看它是不是一个‘垃圾垃圾’设计？”
“文献里天天提的 pLDDT、RMSD 到底去哪里看？”

今天这篇干货，就用最通俗的语言，手把手教你如何看懂 RFdiffusion 输出的结构质量。

核心前提：你拿到的 RFdiffusion 原始 PDB，其实“不能直接用”

这是新手最容易踩的第一个坑。

RFdiffusion 本质上只设计“骨架”（Backbone）。它输出的 PDB 文件，通常只包含碳 alpha（CA）、碳（C）、氮（N）、氧（O）等主链原子，连侧链（Sidechains）都没有，或者默认填充的都是丙氨酸（Alanine）或甘氨酸（Glycine）。

所以，你不能直接去测定这个原始 PDB 的能量或质量。要评估一个设计是否成功，标准的 AI 蛋白质设计工作流是这样的：

我们口中常说的“评估 RFdiffusion 结构质量”，实际上评估的是第 3 步和第 4 步产生的数据。

评估一个设计好坏，主要看以下三个指标。如果你是用官方的 ColabFold 或主流的自动化脚本跑的验证，这些指标会直接写在输出的 .json 文件里，或者塞在 PDB 文件的特定列中。

大白话：AI 对自己预测的这个局部结构有多大把握？
数值范围：0 - 100。
怎么看质量：
- pLDDT > 90：极高置信度。结构非常稳定，通常具有明确的二级结构（Alpha螺旋或Beta折叠），大概率能在湿实验中表达并折叠。
- 80 - 90：高置信度。也是非常优秀的设计。
- 70 - 80：中等置信度。可能存在一些灵活的 Loop 环区，如果是整体结构还可以接受，但如果是核心区域，需要小心。
- < 70：低置信度。大概率是无序区（IDR）或者干脆是面条状的“垃圾设计”，可以直接丢弃。
避坑指南：在验证后的 PDB 文件中，pLDDT 的数值通常被写在 B-factor（B因子）那一列。你可以直接在 PyMOL 里输入 spectrum b, rainbow，如果结构大部分呈现红橙色（高B值，在这里代表高pLDDT），说明质量极佳。

大白话：预测出来的结构（PDB 2），和 RFdiffusion 最开始设计的骨架（PDB 1），长得有多像？
数值单位：埃（Å，$10^{-10}$ 米）。
怎么看质量：
- RMSD < 1.0 Å：完美契合。说明 ProteinMPNN 找到的序列，完美锁定了 RFdiffusion 设计的骨架。
- 1.0 Å - 2.0 Å：非常优秀。结构微调在合理范围内。
- 2.0 Å - 3.5 Å：勉强接受。结构发生了一定程度的漂移，需要具体看是局部 Loop 区飘了，还是整体骨架散了。
- > 3.5 Å：失败。说明这个骨架序列无法稳定支撑，预测出来的结构已经“变形”了。

大白话：如果你的设计涉及相互作用（比如设计一个 Binder 去结合靶点蛋白），这个指标代表 AI 对两块结构相对位置的把握有多大。
数值单位：埃（Å）。
怎么看质量：
- iPAE < 10 Å（越低越好）：说明结合界面非常稳固，相互作用模式是高可信的。
- iPAE > 15 Å：界面基本不可信，两个蛋白可能只是虚假地靠在一起，湿实验大概率没有结合力。

假设你用 RFdiffusion 跑了 1000 个 candidate（候选结构），并用 ProteinMPNN + ColabFold 跑完了验证。你会得到一堆 .pdb 和 .json 文件。请按以下步骤快速过滤：

不要一个一个去点开看。写个简单的 Python 脚本（或者让 ChatGPT 帮你写一个），提取所有 JSON 文件里的 plddt 和 rmsd。

把通过初筛的 PDB（设计图 design.pdb 和预测图 prediction.pdb）拖入 PyMOL 中。

对齐结构：在命令行输入 align prediction, design。
看重合度：观察两者是否严丝合缝。重点看你的活性位点或者功能区域（如 Binding interface）是否完全重合。
看表面疏水性：输入 color gray; show surface。检查暴露在外部的表面是否含有过多的疏水氨基酸（如果表面太油，蛋白在水里容易聚集沉淀，无法表达）。
检查不合理的空腔或碰撞：看看内部有没有奇怪的空洞，或者侧链挤在一起（Clash）的情况。

如果你不习惯写代码，可以使用以下可视化工具：

最后，给你一个优秀 RFdiffusion 衍生设计的“标准画像”，对照着这个标准去挑你的 PDB，准没错：

搞科研不怕失败，蛋白质设计本身就是个概率游戏。用好这套指标筛选系统，能帮你省下大把的湿实验经费和时间！