HOOOS

如何基于生成式AI与多目标优化从头设计超低免疫原性的合成5' UTR

0 2 BioAIExplorer mRNA疫苗深度学习生成式AI
Apple

在mRNA疫苗和核酸药物的设计中,5' 非翻译区(5' UTR)扮演着决定性的角色。它不仅是核糖体招募与扫描的“停机坪”,直接决定了蛋白质的翻译效率(Translation Efficiency, TE),同时也是天然免疫系统(如TLR3、TLR7/8、RIG-I等模式识别受体)监控的重点区域。

尽管目前工业界广泛采用天然存在的5' UTR(如人 $\alpha$-globin 或 $\beta$-globin UTR),但这些天然序列并非针对体外转录(IVT)mRNA场景优化,且其翻译活性与免疫原性之间往往存在强烈的Trade-off(权衡)。

利用深度学习进行De Novo(从头)设计,核心逻辑在于在巨大的序列空间中,寻找同时满足“高核糖体载量”与“低免疫识别特征”的帕累托最优解。以下是构建这一设计管线的完整工程落地框架。


一、 数据表征与特征工程:如何让AI“读懂”RNA

设计的第一步是将5' UTR序列(通常为50-150 nt)转化为模型可高效处理的张量,同时必须保留其关键的物理化学与二级结构信息。

1. 序列 Tokenization

传统的 One-hot 编码虽然简单,但割裂了核苷酸之间的上下文关联。推荐采用以下方案:

  • K-mer 级表征: 使用重叠的 3-mer 或 6-mer 将序列切片,能够捕获局部密码子偏好及基序。
  • RNA预训练大模型(Foundation Models): 直接使用如 RNA-FMDNABERT-2UTR-LM 的最后一层隐状态(Hidden States)作为表征。这些模型在数百万条天然RNA序列上进行了自监督预训练,已经隐式地学习到了RNA的二级结构与进化保守性规律。

2. 显式结构特征嵌入

5' UTR 的二级结构(如茎环、G-四联体)对翻译起始和免疫原性有决定性影响。在输入端,建议将序列特征与结构特征进行拼接:

  • 自由能与配对概率: 使用 RNAfoldLinearFold 计算序列中每个碱基的配对概率矩阵(Base Pairing Probability, BPP)。
  • 二级结构 Dot-Bracket 序列:((...)). 转化为独热编码,作为辅助特征输入。

二、 生成器架构设计:自回归 Transformer vs. 扩散模型

生成器(Generator)的任务是生成候选的5' UTR序列。在实际工程中,有三种主流架构:

方案 A: Autoregressive Transformer (GPT-style)
[Start] -> [U] -> [G] -> [A] -> [C] ... -> [Kozak] -> [Stop/AUG]

方案 B: Latent Diffusion Model (LDM)
[Noise (Continuous Space)] --(Reverse Diffusion)--> [Optimized Representation] --> [Decoder] --> [5' UTR Sequence]

1. 基于自回归的 Transformer(推荐用于快速迭代)

利用类似GPT的Decoder-only架构,按token逐个生成碱基。

  • 优势: 极强的前后上下文建模能力,能够自发学到 Kozak 序列(如 GCCACC[AUG])等翻译启动的核心基序。
  • 约束引入: 可以通过 Mask 机制,强制在序列末端保留 AUG 起始密码子,并严格禁止在 UTR 内部出现游离的 upstream AUG(uORF),因为 uORF 会导致翻译提前终止或移码,严重降低翻译效率。

2. 潜空间扩散模型(Latent Diffusion, LDM)

将离散的RNA序列映射到连续的潜空间(Latent Space),在潜空间中进行加噪与去噪过程。

  • 优势: 相比于自回归模型,扩散模型更容易进行全局可控生成(Controllable Generation)。我们可以通过 Classifier-Free Guidance (CFG),在去噪阶段直接注入“高表达”和“低免疫”的梯度信号,引导模型向目标区域收敛。

三、 多目标预测器(Oracle)的构建:定义“好”的5' UTR

生成器本身没有方向,它必须依赖高精度的预测器(Oracle)来进行筛选。我们需要构建两个核心预测器:翻译效率预测器免疫原性预测器

1. 翻译效率(TE)预测器

  • 数据集构建: 利用 MPRA(大规模并行报告基因分析)公开数据集(如 Optimus 5-Prime 数据集,包含 280,000+ 随机 5' UTR 的核糖体分析数据)。
  • 模型架构: 采用 1D-CNN + BiLSTM + Attention 的混合架构。CNN 用于捕获局部 Motif(如避免出现抑制翻译的 AU-rich elements),Attention 用于捕获全局折叠对核糖体扫描的阻碍。
  • 预测指标: Mean Ribosome Load (MRL)。

2. 免疫原性(Immunogenicity)预测器

这是 De Novo 设计中挑战最大的一环。体外转录的 mRNA 激活天然免疫主要通过以下通路,预测器需要针对性建模:

抑制 TLR7/8 激活(基于 Motif 与序列特征)

TLR7/8 倾向于识别富含 U 或 GU 的单链 RNA。

  • 特征工程: 显式统计游离 U 碱基的连续长度(U-stretch)以及 GU 的密度。
  • 模型设计: 训练一个二分类器,学习已知能够逃避 TLR7/8 识别的天然/合成序列特征。

抑制 TLR3, RIG-I 与 MDA5 激活(基于结构特征)

这些受体主要识别双链 RNA(dsRNA)或异常的二级结构。

  • 特征工程: 计算最小自由能(MFE)。过低的 MFE 意味着存在非常稳定的发夹结构(Hairpin),极易被 MDA5 识别。
  • 模型设计: 限制 5' UTR 的局部双链长度。任何连续配对碱基长度 $> 11 , \text{bp}$ 的设计都应给予严厉的惩罚分。

四、 闭环优化算法:将生成器与预测器融合

有了生成器(产生序列)和预测器(评估分数),如何让它们高效协同?推荐使用基于强化学习的近端策略优化(PPO)

+-------------------------------------------------------------+
|                                                             |
|                         Generator                           |
|                    (Transformer Agent)                      |
|                              |                              |
+------------------------------|------------------------------+
                               | Generates Sequence ($S$)
                               v
+-------------------------------------------------------------+
|                                                             |
|                          Oracles                            |
|     +-----------------------+     +-------------------+     |
|     |     TE Predictor      |     |  Immuno Predictor |     |
|     |       (MRL)           |     |    (TLR/RIG-I)    |     |
|     +-----------+-----------+     +---------+---------+     |
|                 |                           |               |
|                 | $R_{\text{TE}}$           | $R_{\text{Imm}}$
+-----------------|---------------------------|---------------+
                  |                           |
                  +-------------+-------------+
                                |
                                v
                       Joint Reward Calculation
            $R(S) = \alpha \cdot R_{\text{TE}} - \beta \cdot R_{\text{Imm}} - \gamma \cdot \text{KL}(P || P_{\text{ref}})$
                                |
                                | Update Gradients
                                v
                  [Backpropagation to Generator]

1. 联合奖励函数设计

定义综合奖励 $R(S)$:
$$R(S) = \alpha \cdot R_{\text{TE}}(S) - \beta \cdot R_{\text{Imm}}(S) - \gamma \cdot \text{KL}(P_{\theta} ,||, P_{\text{ref}})$$

  • $R_{\text{TE}}(S)$:翻译效率预测分数。
  • $R_{\text{Imm}}(S)$:预测的免疫原性激活值(越低越好,故前置负号)。
  • $\text{KL}(P_{\theta} ,||, P_{\text{ref}})$:KL 散度惩罚项。防止强化学习模型产生“对抗样本”(即生成一些在物理上不可能存在,但能骗过预测器拿高分的垃圾序列)。$P_{\text{ref}}$ 是初始在天然序列上预训练好的生成器。

2. 搜索策略优化

在生成阶段,引入 蒙特卡洛树搜索(MCTS)。在每一个碱基生成的节点,利用预测器进行前瞻性评估,剪枝掉那些大概率会导致高免疫原性二级折叠的分支。


五、 避坑指南:工业落地中的核心痛点

  1. 修饰核苷酸(如 $1\text{-methylpseudouridine}, 1\text{-}\psi\text{U}$)的偏置问题
    绝大多数预测器(如基于 MPRA 训练的模型)使用的是未经修饰的天然 U 碱基数据。而在实际工业应用中,mRNA 必须使用 $1\text{-}\psi\text{U}$ 进行全修饰以降低免疫原性。
    • 解决方案: 在训练预测器时,必须显式地将 $1\text{-}\psi\text{U}$ 的物理化学性质(例如它增强了碱基堆积力,会使二级结构更稳定)纳入模型输入,或者使用加入了修饰核苷酸的专有 MPRA 数据集进行 Fine-tune。
  2. 5' 端封帽(Cap)物理距离约束
    Cap 1 结构紧邻 5' UTR 的第一个碱基。如果 5' UTR 的起始端(前 10-15 nt)形成极强的二级结构,会直接阻碍真核翻译起始因子 4F(eIF4F)复合物的结合。
    • 约束规则: 强制生成器在 5' 最前端生成一段长度为 12 nt 左右的无结构(Unstructured)区域。

六、 湿实验验证(Dry-to-Wet Loop)

AI 生成的序列最终必须在物理世界闭环。标准的验证管线如下:

  1. 高通量合成与筛选: 挑选模型生成的 Top 1000 候选序列,通过 Oligo 芯片合成 DNA 模板,体外转录为包含 GFP 或 Luciferase 报告基因的 mRNA。
  2. 体外转录(IVT)与修饰: 使用 $1\text{-}\psi\text{U}$ 进行完全替代,并加上 Cap 1 结构。
  3. 细胞系转染(TE 验证): 转染 HEK293T 或 C2C12 细胞,通过流式细胞仪或酶标仪定量检测蛋白表达动力学(2h, 6h, 12h, 24h, 48h)。
  4. 原代免疫细胞转染(免疫原性验证): 将 mRNA 转染至人外周血单核细胞(PBMC)或小鼠骨髓来源的树突状细胞(BMDC)。在转染后 16 小时,通过 ELISA 检测培养基中 $\text{IFN-}\alpha$、$\text{IFN-}\beta$ 和 $\text{IL-6}$ 的释放水平。
  5. 数据回流: 将湿实验测得的真实 MRL 和细胞因子释放数据重新喂给预测器,进行主动学习(Active Learning)迭代,进一步提升下一轮 AI 设计的精度。

点评评价

captcha
健康