在 AlphaFold 3 和 RoseTTAFold-All-Atom 掀起的多模态分子结构预测浪潮中,RNA 似乎成了聚光灯下最难啃的骨头。与结构相对规整、存在大量同源模板的蛋白质不同,RNA 在生理环境中表现出极高的柔性和动态多变性。
传统的“单一静态结构”预测对 RNA 而言往往是个伪命题。RNA 的功能(如核糖开关的配体响应、剪切体的高度动态组装)本质上是由其构象系综(Conformational Ensemble)——即一系列在热力学上可达的亚稳态构象及其玻尔兹曼分布(Boltzmann Distribution)决定的。
近年来,**几何深度学习(Geometric Deep Learning, GDL)**凭借对非欧几里得空间(如分子图、三维点云、流形)的强大表征能力,成为破解 RNA 动态系综模拟的新兴利器。然而,当算法深入到物理底层,研究者们正在经历从“几何拟合”向“物理一致性”转型的阵痛。
一、 几何深度学习如何表征与生成 RNA 构象?
在处理 RNA 这种高度动态的生物大分子时,GDL 的核心任务有两个:如何对称地表征结构,以及如何高效地采样构象空间。
1. 几何对称性与等变神经网络(Equivariant NNs)
RNA 的物理性质不随其在空间中的平移或旋转而改变。因此,处理 RNA 三维坐标的模型必须满足 $SE(3)$(三维空间旋转平移群)的等变性或不变性。
目前主流的架构包括:
- 基于等变向量的消息传递网络(如 EGNN, Vector Neurons): 将原子的三维坐标作为等变特征,在层间传递时显式保留空间旋转变换关系。这在预测 RNA 局部刚性结构(如碱基平面)和柔性骨架的相对运动时非常有效。
- 基于几何张量乘积的架构(如 Tensor Field Networks, e3nn): 利用球谐函数(Spherical Harmonics)表征更高阶的空间方向信息。这类方法能够更精准地捕捉 RNA 中复杂的碱基堆积(Base Stacking)和非经典氢键的方向性,但计算复杂度较高。
2. 生成式模型对构象空间的探索
要获得构象系综,模型不仅要给出一个“最可能”的结构,还要生成符合特定热力学分布的结构集合。
- 等变扩散模型(Equivariant Diffusion Models): 借鉴图像生成中的扩散机制,在三维空间中对 RNA 原子坐标(或扭转角)进行加噪和去噪。例如,将蛋白质领域的 RFdiffusion 思想迁移至 RNA,通过在连续空间中求解随机微分方程(SDE),直接生成多样的 RNA 骨架拓扑。
- 流匹配(Flow Matching): 作为扩散模型的替代方案,流匹配在生成路径的向量场构建上更加直接,训练更稳定,正在被逐步引入到 RNA 的慢速动力学轨迹模拟中。
- 玻尔兹曼发生器(Boltzmann Generators): 结合变分自编码器(VAE)和流模型(Normalizing Flows),试图在隐空间中重构 RNA 的自由能景观(Free Energy Landscape),并直接采样出符合玻尔兹曼分布的构象。
二、 核心应用场景与前沿进展
1. 加速粗粒度分子动力学(CG-MD)
全原子分子动力学(MD)模拟 RNA 的微秒级运动需要极大的算力。GDL 的一个典型应用是学习机器学习力场(ML Force Fields)。利用深度等变图神经网络(如 Allegro, MACE),可以学习从 RNA 构象到势能面的映射,在保持量子化学精度或全原子级精度的同时,将动力学采样速度提升数个数量级。
2. 结合实验约束的集成精修(Ensemble Refinement)
在冷冻电镜(Cryo-EM)和溶液小角X射线散射(SAXS)中,实验数据往往是多种构象混杂的平均信号。GDL 可以将这些低分辨率或平均化的实验信号作为能量惩罚项(Constraints),通过等变生成模型快速重建出解释该实验谱图的动态构象系综。
三、 阻碍算法落地的核心瓶颈
尽管 GDL 在几何表征上展现了极强的数学美感,但在实际用于 RNA 构象系综模拟时,却迎头撞上了几面坚硬的物理与数据之墙。
1. 数据荒漠:RNA PDB 数据的数量级缺失
这是最致命的系统性瓶颈。
相比于蛋白质数据库(PDB)中数十万个高质量结构,高质量的 RNA 三维结构仅有数千个,而能够体现动态构象转换的实验系综数据(如通过 NMR 测定的多状态结构)更是屈指可数。
- 后果: 深度神经网络,尤其是需要数百万参数的等变 Transformer 或扩散模型,在如此微小的数据集上极易发生过拟合。模型往往学会了“画出漂亮的 RNA 几何形状”,但却无法泛化到未知的 RNA 拓扑结构上。
2. 静电相互作用与离子配位的“长程噩梦”
RNA 骨架上的磷酸基团带有极强的负电荷,这使得 RNA 的三维折叠和动态过渡高度依赖于环境中的阳离子(尤其是 $Mg^{2+}$ 镁离子)的屏蔽与配位。
- 几何算法的缺陷: 目前大多数 GNN 采用的是基于截断半径(Cut-off)的局部消息传递机制(通常为 $6\text{Å} \sim 12\text{Å}$)。这种设计天然难以处理长程静电相互作用(Electrostatics)。
- 如果忽略了 explicit ions(显式离子)以及长程库仑力的物理演化,GDL 模型预测出的 RNA 动态系综在物理上是极其不稳定的,经常会出现骨架由于同电荷排斥而“炸开”的荒谬现象。
3. 自由能与热力学一致性(Thermodynamic Consistency)的缺失
生成对抗网络(GAN)或扩散模型生成的构象集合,在几何上可能看起来很像 RNA(碱基配对正确、没有原子重叠),但它们不具备热力学一致性。
- 在统计物理中,构象出现的概率必须正比于 $e^{-\beta E}$(其中 $E$ 是该构象的自由能)。
- 纯数据驱动的几何生成模型并不知道真实的物理哈密顿量(Hamiltonian)。它们容易陷入“模式崩溃”(Mode Collapse),即反复生成能量极低的某几个基态构象,而漏掉了在功能上至关重要、但在数据中出现频率较低的亚稳态过渡态(Transition States)。
4. 连续柔性自由度与刚性假设的冲突
在蛋白质设计中,模型常将残基视为沿主链排列的刚性刚体(Rigid Frames),仅需预测旋转角($\phi, \psi$)。
但 RNA 的骨架拥有多达 6 个自由旋转的单键($\alpha, \beta, \gamma, \delta, \epsilon, \zeta$),加上糖环的拟旋转(Pucker)和糖苷键角($\chi$),其柔性维度远超蛋白质。
- 如果采用全刚体假设,会严重限制其动态构象的表达空间;
- 如果采用全原子连续坐标生成,则极易产生键长键角畸变(Bond stretching and bending violations)。如何在保持物理几何约束(如键长固定、碱基共面)的同时,高效搜索高维的柔性扭转角空间,目前仍缺乏优雅的算法解法。
四、 破局之路:几何深度学习的下一阶段
要突破上述瓶颈,学术界和工业界的研究范式正在发生转移:
- 物理启发式诱导偏差(Physics-informed Inductive Biases): 放弃纯粹的端到端黑盒生成。在 GNN 的层间显式嵌入物理方程(如 Ewald 求和的近似、Debye-Hückel 静电势场),让网络在传递几何特征的同时传递物理场特征。
- 主动学习与强化学习闭环: 将 GDL 构象生成器与经典的物理采样方法(如元动力学 Metadynamics、副本交换 MD)结合。由深度学习快速提出候选构象,由物理引擎进行短时间的弛豫和自由能计算,再反馈给深度学习,实现物理一致性的自我演进。
- 多模态实验数据融合(Multi-modal Integration): 引入更易获取的低维实验数据(如 SHAPE 化学修饰活性、DMS-MaPseq 突变谱、单分子 FRET 效率),将其作为图神经网络的节点特征或损失函数的正则项。这些湿实验数据虽然不是三维坐标,但蕴含了丰富的动态构象平衡信息,能极大缓解 PDB 结构数据匮乏的痛点。
结语:
几何深度学习已经向我们证明了它在重构分子静态几何上的统治力。但在 RNA 构象系综这一复杂动态系统面前,纯粹的几何拟合已经触及天花板。未来的破局者,必然是能够将微分流形、等变代数与经典的统计力学物理底蕴深度融合的“混血”算法。