如何基于生成式AI与多目标优化从头设计超低免疫原性的合成5' UTR

在mRNA疫苗和核酸药物的设计中，5' 非翻译区（5' UTR）扮演着决定性的角色。它不仅是核糖体招募与扫描的“停机坪”，直接决定了蛋白质的翻译效率（Translation Efficiency, TE），同时也是天然免疫系统（如TLR3、TLR7/8、RIG-I等模式识别受体）监控的重点区域。

尽管目前工业界广泛采用天然存在的5' UTR（如人 $\alpha$-globin 或 $\beta$-globin UTR），但这些天然序列并非针对体外转录（IVT）mRNA场景优化，且其翻译活性与免疫原性之间往往存在强烈的Trade-off（权衡）。

利用深度学习进行De Novo（从头）设计，核心逻辑在于在巨大的序列空间中，寻找同时满足“高核糖体载量”与“低免疫识别特征”的帕累托最优解。以下是构建这一设计管线的完整工程落地框架。

一、数据表征与特征工程：如何让AI“读懂”RNA

设计的第一步是将5' UTR序列（通常为50-150 nt）转化为模型可高效处理的张量，同时必须保留其关键的物理化学与二级结构信息。

1. 序列 Tokenization

传统的 One-hot 编码虽然简单，但割裂了核苷酸之间的上下文关联。推荐采用以下方案：

K-mer 级表征： 使用重叠的 3-mer 或 6-mer 将序列切片，能够捕获局部密码子偏好及基序。
RNA预训练大模型（Foundation Models）： 直接使用如 RNA-FM、DNABERT-2 或 UTR-LM 的最后一层隐状态（Hidden States）作为表征。这些模型在数百万条天然RNA序列上进行了自监督预训练，已经隐式地学习到了RNA的二级结构与进化保守性规律。

2. 显式结构特征嵌入

5' UTR 的二级结构（如茎环、G-四联体）对翻译起始和免疫原性有决定性影响。在输入端，建议将序列特征与结构特征进行拼接：

自由能与配对概率： 使用 RNAfold 或 LinearFold 计算序列中每个碱基的配对概率矩阵（Base Pairing Probability, BPP）。
二级结构 Dot-Bracket 序列： 将 ((...)). 转化为独热编码，作为辅助特征输入。

二、生成器架构设计：自回归 Transformer vs. 扩散模型

生成器（Generator）的任务是生成候选的5' UTR序列。在实际工程中，有三种主流架构：

方案 A: Autoregressive Transformer (GPT-style)
[Start] -> [U] -> [G] -> [A] -> [C] ... -> [Kozak] -> [Stop/AUG]

方案 B: Latent Diffusion Model (LDM)
[Noise (Continuous Space)] --(Reverse Diffusion)--> [Optimized Representation] --> [Decoder] --> [5' UTR Sequence]

1. 基于自回归的 Transformer（推荐用于快速迭代）

利用类似GPT的Decoder-only架构，按token逐个生成碱基。

优势： 极强的前后上下文建模能力，能够自发学到 Kozak 序列（如 GCCACC[AUG]）等翻译启动的核心基序。
约束引入： 可以通过 Mask 机制，强制在序列末端保留 AUG 起始密码子，并严格禁止在 UTR 内部出现游离的 upstream AUG（uORF），因为 uORF 会导致翻译提前终止或移码，严重降低翻译效率。

2. 潜空间扩散模型（Latent Diffusion, LDM）

将离散的RNA序列映射到连续的潜空间（Latent Space），在潜空间中进行加噪与去噪过程。

优势： 相比于自回归模型，扩散模型更容易进行全局可控生成（Controllable Generation）。我们可以通过 Classifier-Free Guidance (CFG)，在去噪阶段直接注入“高表达”和“低免疫”的梯度信号，引导模型向目标区域收敛。

三、多目标预测器（Oracle）的构建：定义“好”的5' UTR

生成器本身没有方向，它必须依赖高精度的预测器（Oracle）来进行筛选。我们需要构建两个核心预测器：翻译效率预测器和免疫原性预测器。

1. 翻译效率（TE）预测器

数据集构建： 利用 MPRA（大规模并行报告基因分析）公开数据集（如 Optimus 5-Prime 数据集，包含 280,000+ 随机 5' UTR 的核糖体分析数据）。
模型架构： 采用 1D-CNN + BiLSTM + Attention 的混合架构。CNN 用于捕获局部 Motif（如避免出现抑制翻译的 AU-rich elements），Attention 用于捕获全局折叠对核糖体扫描的阻碍。
预测指标： Mean Ribosome Load (MRL)。

2. 免疫原性（Immunogenicity）预测器

这是 De Novo 设计中挑战最大的一环。体外转录的 mRNA 激活天然免疫主要通过以下通路，预测器需要针对性建模：

抑制 TLR7/8 激活（基于 Motif 与序列特征）

TLR7/8 倾向于识别富含 U 或 GU 的单链 RNA。

特征工程： 显式统计游离 U 碱基的连续长度（U-stretch）以及 GU 的密度。
模型设计： 训练一个二分类器，学习已知能够逃避 TLR7/8 识别的天然/合成序列特征。

抑制 TLR3, RIG-I 与 MDA5 激活（基于结构特征）

这些受体主要识别双链 RNA（dsRNA）或异常的二级结构。

特征工程： 计算最小自由能（MFE）。过低的 MFE 意味着存在非常稳定的发夹结构（Hairpin），极易被 MDA5 识别。
模型设计： 限制 5' UTR 的局部双链长度。任何连续配对碱基长度 $> 11 , \text{bp}$ 的设计都应给予严厉的惩罚分。

四、闭环优化算法：将生成器与预测器融合

有了生成器（产生序列）和预测器（评估分数），如何让它们高效协同？推荐使用基于强化学习的近端策略优化（PPO）。

+-------------------------------------------------------------+
|                                                             |
|                         Generator                           |
|                    (Transformer Agent)                      |
|                              |                              |
+------------------------------|------------------------------+
                               | Generates Sequence ($S$)
                               v
+-------------------------------------------------------------+
|                                                             |
|                          Oracles                            |
|     +-----------------------+     +-------------------+     |
|     |     TE Predictor      |     |  Immuno Predictor |     |
|     |       (MRL)           |     |    (TLR/RIG-I)    |     |
|     +-----------+-----------+     +---------+---------+     |
|                 |                           |               |
|                 | $R_{\text{TE}}$           | $R_{\text{Imm}}$
+-----------------|---------------------------|---------------+
                  |                           |
                  +-------------+-------------+
                                |
                                v
                       Joint Reward Calculation
            $R(S) = \alpha \cdot R_{\text{TE}} - \beta \cdot R_{\text{Imm}} - \gamma \cdot \text{KL}(P || P_{\text{ref}})$
                                |
                                | Update Gradients
                                v
                  [Backpropagation to Generator]

1. 联合奖励函数设计

定义综合奖励 $R(S)$：
$$R(S) = \alpha \cdot R_{\text{TE}}(S) - \beta \cdot R_{\text{Imm}}(S) - \gamma \cdot \text{KL}(P_{\theta} ,||, P_{\text{ref}})$$

$R_{\text{TE}}(S)$：翻译效率预测分数。
$R_{\text{Imm}}(S)$：预测的免疫原性激活值（越低越好，故前置负号）。
$\text{KL}(P_{\theta} ,||, P_{\text{ref}})$：KL 散度惩罚项。防止强化学习模型产生“对抗样本”（即生成一些在物理上不可能存在，但能骗过预测器拿高分的垃圾序列）。$P_{\text{ref}}$ 是初始在天然序列上预训练好的生成器。

2. 搜索策略优化

在生成阶段，引入 蒙特卡洛树搜索（MCTS）。在每一个碱基生成的节点，利用预测器进行前瞻性评估，剪枝掉那些大概率会导致高免疫原性二级折叠的分支。

五、避坑指南：工业落地中的核心痛点

修饰核苷酸（如 $1\text{-methylpseudouridine}, 1\text{-}\psi\text{U}$）的偏置问题
绝大多数预测器（如基于 MPRA 训练的模型）使用的是未经修饰的天然 U 碱基数据。而在实际工业应用中，mRNA 必须使用 $1\text{-}\psi\text{U}$ 进行全修饰以降低免疫原性。
- 解决方案： 在训练预测器时，必须显式地将 $1\text{-}\psi\text{U}$ 的物理化学性质（例如它增强了碱基堆积力，会使二级结构更稳定）纳入模型输入，或者使用加入了修饰核苷酸的专有 MPRA 数据集进行 Fine-tune。
5' 端封帽（Cap）物理距离约束
Cap 1 结构紧邻 5' UTR 的第一个碱基。如果 5' UTR 的起始端（前 10-15 nt）形成极强的二级结构，会直接阻碍真核翻译起始因子 4F（eIF4F）复合物的结合。
- 约束规则： 强制生成器在 5' 最前端生成一段长度为 12 nt 左右的无结构（Unstructured）区域。

六、湿实验验证（Dry-to-Wet Loop）

AI 生成的序列最终必须在物理世界闭环。标准的验证管线如下：

高通量合成与筛选： 挑选模型生成的 Top 1000 候选序列，通过 Oligo 芯片合成 DNA 模板，体外转录为包含 GFP 或 Luciferase 报告基因的 mRNA。
体外转录（IVT）与修饰： 使用 $1\text{-}\psi\text{U}$ 进行完全替代，并加上 Cap 1 结构。
细胞系转染（TE 验证）： 转染 HEK293T 或 C2C12 细胞，通过流式细胞仪或酶标仪定量检测蛋白表达动力学（2h, 6h, 12h, 24h, 48h）。
原代免疫细胞转染（免疫原性验证）： 将 mRNA 转染至人外周血单核细胞（PBMC）或小鼠骨髓来源的树突状细胞（BMDC）。在转染后 16 小时，通过 ELISA 检测培养基中 $\text{IFN-}\alpha$、$\text{IFN-}\beta$ 和 $\text{IL-6}$ 的释放水平。
数据回流： 将湿实验测得的真实 MRL 和细胞因子释放数据重新喂给预测器，进行主动学习（Active Learning）迭代，进一步提升下一轮 AI 设计的精度。