无复合物结构？仅凭 ESM-Fold 预测的抗原单体如何进行反向疫苗设计

在结构免疫学和疫苗研发中，最理想的情况是拥有抗原-中和抗体复合物的共晶或冷冻电镜结构，这能直接指出关键的保护性表位（Protective Epitope）。

但在面对新兴病原体或难结晶的膜蛋白时，我们往往只有基因序列。利用 ESM-Fold 等快速单体结构预测工具，在缺乏复合物晶体结构的限制条件下，依然可以通过一套严谨的**计算结构疫苗学（Computational Structural Vaccinology）**工作流，实现从单体结构到高效免疫原（Immunogen）的反向设计。

以下是具体的落地技术路线与核心套路：

一、评估与优化 ESM-Fold 预测的单体结构

ESM-Fold 速度极快，但在细节上（如侧链构象、局部 loop 环）可能存在偏差。直接将其用于表位预测前，必须进行质量控制和结构微调。

评估置信度（pLDDT 评分）
- 核心区分析：重点观察潜在暴露表位区域的 pLDDT。若 pLDDT > 80，表明骨架置信度高，可直接用于后续分析；若某些 Loop 区 pLDDT < 50，这些区域可能是内源性无序区（IDR），在真实生理状态下具有高度动态性，不宜设计为构象型 B 细胞表位。
结构能量最小化与松弛（Relaxation）
- 运行 Rosetta Relax 协议或利用 Amber14SB 力场进行短时间的分子动力学（MD）能量最小化，修复 ESM-Fold 预测结构中可能存在的原子碰撞（Clashes）和不合理的键长键角。
分子动力学（MD）模拟评估稳定性
- 对单体进行 50–100 ns 的显式溶剂 MD 模拟（如使用 GROMACS）。
- 计算 RMSF（均方根涨落），识别出在溶液中真正稳定暴露的刚性表位，排除那些虽然在静态模型中暴露、但在动态模拟中极易发生构象坍塌的区域。

二、结构域及表面特征的“指纹”提取

缺乏抗体信息时，我们需要通过几何几何学与物理化学特征，自主寻找抗原表面的“热点（Hotspots）”。

计算溶剂可及表面积（SASA）与残留深度（Residue Depth）
- 使用 MSMS 或 FreeSASA 计算每个氨基酸的相对可及性。只有高 SASA 且暴露在外的残基才具备与 B 细胞受体（BCR）结合的物理空间。
表面静电势与疏水性斑块分析
- 使用 APBS（Adaptive Poisson-Boltzmann Solver） 计算表面静电势。
- 寻找抗原表面的两亲性区域（由一圈带电荷/极性残基包围的疏水核心）。经典的抗原-抗体相互作用界面通常由互补的静电相互作用和适度的疏水作用驱动。

三、基于几何深度学习的 B 细胞构象型表位预测

传统的序列预测工具（如 Bepipred）对构象型表位效果不佳。我们需要利用直接针对三维空间几何特征训练的深度学习算法。

MaSIF-site（基于分子表面特征的预测）
- 原理：将蛋白质表面网格化，提取几何（曲率）和化学（静电、疏水性）特征，生成“表面指纹”。
- 应用：预测哪些表面区域天然具有与蛋白质（抗体）结合的倾向（Protein-binding pockets）。
ScanNet（基于空间几何的神经网络）
- 专门针对 B 细胞表位设计的时空注意力神经网络。直接输入优化后的 PDB 文件，它能给出每个表面原子作为表位残基的概率得分。
DiscoTope 3.0 / Epitopia
- 结合了空间邻近度和进化保守性的经典预测工具。通过比对同源抗原的进化压力，筛选出那些既暴露又高度保守的区域，避免病原体通过单点突变轻易发生免疫逃逸。

四、逆向寻找或虚拟筛选“广谱中和抗体”

虽然没有现成的复合物结构，但我们可以通过**交叉对接（Cross-Docking）或从头设计（De Novo Design）**来反向寻找能与这些预测表位结合的模拟抗体。

抗体文库虚拟筛选
- 从 SAbDab（结构抗体数据库）中下载已有的、针对同科/同属病原体的高校中和抗体（如已知的大流感抗体、冠状病毒广谱抗体）。
- 使用 HDOCK 或 ClusPro，将 ESM-Fold 预测的单体与这些通用抗体的 CDR 区进行刚性对接。
- 筛选结合能低、氢键与盐桥相互作用丰富的构象，反推抗原的哪一部分是可行的“靶向口袋（Targetable Pocket）”。
基于 RFdiffusion 的靶向结合体从头生成
- 如果预测出的表位是一个高度保守的刚性 Helix 或 Beta-turn，可以使用 RFdiffusion（Active Site Directed Design 模式）。
- 指定该表位为 Target，让模型直接从头生成能够高亲和力结合该表位的 Scaffold 蛋白或微型抗体（Minibinder），验证该表位是否具备可成药性/可靶向性。

五、免疫原重建与表位嫁接（Epitope Scaffold Grafting）

筛选出潜在的保护性构象表位后，不能直接用原抗体单体去免疫，因为单体可能存在免疫伪装、不稳定或非中和表位占主导（Immunodominance diversion）的问题。我们需要将关键表位“移植”出来。

基于 Rosetta 的计算表位嫁接（Grafting）
- 将预测出的构象表位骨架（通常为 10–30 个氨基酸的空间构象）提取出来。
- 使用 Rosetta FunFolDes 或 MotifGraft，在一组结构稳定的支架蛋白（Scaffolds，如 OMP, Ferritin, 或天然小蛋白）库中进行搜索。
- 将该表位无缝“拼合”到支架蛋白的相应位置，并对支架与表位的连接处进行 ProteinMPNN 序列设计，确保移植后的表位仍保持 ESM-Fold 预测时的天然三维构象。
利用 RFdiffusion 进行基于基序的从头支架生成（Motif-Scaffolding）
- 输入预测的表位结构片段，设定支架蛋白的长度与对称性（如三聚体或纳米颗粒），让 RFdiffusion 直接围绕该表位生成全新的、热力学极稳定的支架蛋白。这种方法不受天然支架数据库的限制，成功率更高。

六、整合 T 细胞表位以获得完全免疫原性

一个优秀的重组 B 细胞表位疫苗通常需要 T 细胞表位的辅助（Helper T-cell epitopes）来激活免疫记忆和 B 细胞的类别转换。

MHC 亲和力预测
- 利用 NetMHCpan 4.1（MHC-I） 和 NetMHCIIpan 4.0（MHC-II） 预测该抗原单体序列中的高亲和力 T 细胞表位。
空间定位检查
- 在 ESM-Fold 模型上标出这些 T 细胞表位。
- 筛选原则：选择那些埋藏在单体内部、或者非构象型的疏水性多肽片段作为 T 细胞表位。将它们作为 Linker，或者连接在 B 细胞表位支架蛋白的 C/N 端，避免它们干扰 B 细胞构象表位的空间折叠。

落地工作流 Checklist

阶段	核心任务	推荐工具链
1. 结构准备	单体预测与松弛优化	ESM-Fold $\rightarrow$ Rosetta Relax / Amber MD
2. 特征分析	表面溶剂可及性与几何特征提取	FreeSASA $\rightarrow$ APBS (静电势)
3. 表位预测	寻找潜在的构象型中和表位	ScanNet $\rightarrow$ MaSIF-site $\rightarrow$ DiscoTope 3.0
4. 支架设计	将构象表位稳定呈递在非相关支架上	RFdiffusion (Motif-Scaffolding) $\rightarrow$ ProteinMPNN
5. 载体组装	纳米颗粒展示以提高免疫原性	Mi3/Ferritin 纳米颗粒融合 $\rightarrow$ 密码子优化

总结： 即使缺乏共晶结构，借助 ESM-Fold 强大的单体预测能力，叠加上几何深度学习表位预测（ScanNet/MaSIF）与生成式蛋白质设计（RFdiffusion/ProteinMPNN），我们已经能够闭环完成“抗原分析 - 表位定位 - 支架嫁接 - 免疫原设计”的全流程。这不仅大幅缩短了初期研发周期，也为无法获得复合物晶体的难治性靶点提供了关键的破局思路。

无复合物结构？仅凭 ESM-Fold 预测的抗原单体如何进行反向疫苗设计

一、 评估与优化 ESM-Fold 预测的单体结构

二、 结构域及表面特征的“指纹”提取

三、 基于几何深度学习的 B 细胞构象型表位预测

四、 逆向寻找或虚拟筛选“广谱中和抗体”

五、 免疫原重建与表位嫁接（Epitope Scaffold Grafting）

六、 整合 T 细胞表位以获得完全免疫原性