【5.2.1.1】人体疗法中密码子优化的关键分析

April 09, 2020 primer 阅读量：次

密码子优化描述了使用同义密码子变化来增加蛋白质产量的基因工程方法。密码子优化的应用包括重组蛋白药物和核酸疗法，包括基因疗法，mRNA疗法和DNA / RNA疫苗。但是，最近的报道表明：

密码子优化可影响蛋白质构象和功能
增加免疫原性并降低功效。

我们严格审查该主题，确定其他潜在危害，包括某些核酸疗法所不具备的潜在危害。该分析突出显示了密码子使用的发展复杂性，并挑战了密码子优化的科学基础。因此，密码子优化可能无法提供增加蛋白质产量的最佳策略，并且可能降低生物技术疗法的安全性和有效性。我们建议重新考虑使用这种方法，特别是对于体内应用。

一、优化密码子使用以增加蛋白质表达

由于遗传密码的简并性质，大多数蛋白质的多肽链可以由看似无限数量的mRNA序列编码（见术语表）[1]。有趣的是，通过不同的密码子分配编码相同多肽的mRNA在表达的蛋白质数量上可能有很大差异[2，3]。通过改变密码子分配产生更多蛋白质的尝试已导致将密码子优化的mRNA广泛用于蛋白质药物和核酸疗法的生物生产。然而，大量证据表明，天然mRNA的同义密码子选择已随着RNA和蛋白质水平上不同的选择压力而进化[4]。此外，各种研究表明，同义密码子更改可能会产生意想不到的影响。同义密码子的改变可能影响蛋白质的构象和稳定性，改变翻译后修饰的位点，并改变蛋白质的功能[5-9]。此外，同义突变与多种疾病有关[4，10-13]。最近已经讨论了与使用密码子优化的mRNA生产重组蛋白药物相关的一些潜在风险[11，12，14，15]。这些风险包括产生会降低药物功效并引起过敏反应的抗药物抗体。

在本文中，我们严格审查了密码子优化的科学基础，并确定了其他风险。这些包括两个潜在的严重副作用，这些副作用为核酸治疗中的应用带来了独特的风险：

由替代的无框开放阅读框（ORF）生产新肽；
转录后核苷酸修饰位点的改变，可导致产生新的蛋白质变体和集合体。

随着核酸疗法开始受到关注，了解密码子优化的潜在风险以使其最小化或消除是至关重要的。我们建议应仔细考虑将这些方法用于人体治疗，以避免引入不必要的问题。

二、遗传密码，tRNA和摆动 The genetic code, tRNAs, and wobble

由于大多数氨基酸是由多个同义密码子编码的，因此遗传密码是简并的（图1）。但是，细胞和细胞器不表达61种不同的tRNA，并且各个tRNA的相对表达差异很大[16，17]。例如，在人类中，约有500个tRNA基因对应48个密码子。其余13个密码子没有tRNA基因[17]。有趣的是，中国仓鼠卵巢（CHO）细胞中缺少重叠但不同的tRNA基因集，该细胞系通常用于产生治疗性蛋白质。尽管没有这些tRNA基因，mRNA仍使用完整的密码子补体，并且同义的密码子使用不受相关tRNA的缺乏影响。例如，即使没有对应于GAU密码子的tRNA基因，两个密码子也编码天冬氨酸（D）并具有相似的密码子用法。这可能是由于“摆动”（wobble）造成的，它使两个密码子都可以由同一tRNA解码。

摆动涉及第34位具有U或G的tRNA，该碱基与密码子的第三个碱基配对（图2）。 U位在34位的某些tRNA能够进行U-A和U-G碱基配对。同样，一些在34位具有G的tRNA能够进行G-C和G-U碱基配对。此外，对于某些tRNA，第34位的腺嘌呤会被氨基化为肌苷（I），肌苷可以与U，C和A碱基配对。原核生物中的一个tRNA和真核生物中的7-8个tRNA都会发生这种情况[18，19]。在某些情况下，tRNA中不同位置的修饰可以限制摆动，而在其他情况下，则可以扩大摆动范围[20]。实验证明，有25个同源tRNA包含一个最小的序列，可以通过使用称为“超级摆动”的扩展摆动相互作用来维持蛋白质合成[21，22]。超级摆动可以解释如何用比摆动假设所预测的更少的tRNA进行翻译。尽管迄今为止，超级摆动仅在叶绿体中得到证实，但它在哺乳动物中的出现是合理的。

三、密码子优化的历史，科学依据和艺术

遗传密码的简并性使得第一个重组肽，一种哺乳动物生长抑素，可以在大肠杆菌中表达，而无需知道该肽的mRNA序列[23]。通过反向翻译氨基酸序列获得编码序列。考虑到各种基因序列对翻译和转录的影响以及促进基因合成，密码子的使用是有偏见的。

确定第一个基因序列后，注意到密码子以非随机方式使用[24-26]。对于在大肠杆菌和酵母中高度表达的基因，同义密码子的非随机使用被发现与tRNA的丰度相关[27-30]。一些高表达基因优先使用一部分密码子的观察结果表明，密码子偏倚和蛋白质表达之间存在因果关系，并且有可能通过模仿高度表达的mRNA的密码子偏倚模式来增强表达。这种前景导致了众多密码子优化程序和商业服务的发展。这些方法的不同之处在于如何测量密码子偏倚，考虑的变量数量，潜在的应用程序和实现方式。

但是，这些程序的一般特征是它们避免使用稀有密码子，而稀有密码子被认为会降低翻译延伸率。
另外，许多程序包含促进克隆，基因合成和基因修饰的功能，以及避免可能降低蛋白质表达的功能。实际上，许多密码子优化程序根本不受该基因天然密码子使用的限制，并且仅需要一个氨基酸序列作为输入。

使用不同程序或方法产生的密码子优化的mRNA序列可能会发生巨大变化，因为不同的密码子优化策略在量化密码子使用和实施密码子更改的方式方面存在差异。对于氨基酸的所有实例，某些方法都使用最优化（经常使用）的密码子，或者这种方法的一种变体[31，32]。其他方法可调整密码子使用，使其与宿主生物的自然分布成比例[32-38]。这些方法包括密码子协调，它旨在识别和维持被认为对蛋白质折叠很重要的缓慢翻译区域[39]。替代方法包括使用被认为对应于丰富tRNA的密码子[40]，根据其同源tRNA浓度使用密码子[41]，选择性替换稀有密码子[35]或避免出现已知翻译缓慢的密码子对[38，42]。除了在不同程度上将密码子使用视为参数的方法之外，还有一些没有假设的方法都没有考虑此参数[43]。

使科学家能够修改密码子用法的相同灵活性，也使进化过程可以将多个级别的信息嵌入到编码序列中。但是，密码子优化很可能会破坏此信息。

四、密码子优化的关键分析

增加蛋白质表达的密码子优化策略基于以下假设：

稀有密码子限制蛋白质合成的速率；
同义密码子可以互换而不影响蛋白质的结构和功能；
用常用的密码子代替稀有密码子可增加蛋白质产量。

下面我们评估这些假设的有效性。

4.1 假设1：稀有密码子是蛋白质合成的限速

在细菌中，不同的密码子以不同的速率翻译。例如，对大肠杆菌中29个密码子的分析表明，氨酰tRNA的选择率最多相差25倍[44]。也有报道说某些重组蛋白的过表达会耗尽一种或多种tRNA并限制其表达[45]。但是，几乎没有证据可以证明稀有密码子会限制哺乳动物细胞中蛋白质的产生。甚至在细菌中，一些研究表明，特定密码子的翻译率与tRNA丰度或密码子使用频率均不相关[46，47]。在一项研究中，增加与稀有密码子对应的tRNA的表达可提高翻译速率，但导致蛋白质错误折叠和聚集[48]。

在人类中，不同氨基酸的编码程度最多相差10倍（图3A）；然而，总的趋势是，编码频率较低的氨基酸比编码频率较高的氨基酸具有更少的同义密码子。实际上，如果将氨基酸频率标准化为每个氨基酸的同义密码子数量，则差异会减少到3倍（图3B）。
各个密码子使用频率也相差高达10倍（图3C）。但是，密码子是否是限速的，可能取决于其他变量，包括tRNA水平。如果同时考虑到tRNA基因的数目（对于不同的tRNA等轴编码器，其范围从0到33不等）和摆动都被考虑在内，则归一化的密码子频率显示出非常不同的分布（图3D），这对稀有密码子的定义提出了疑问。

我们建议另一种复杂性是tRNA基因的数量不一定与tRNA水平直接相关。例如，基于每个密码子在基因水平上在mRNA编码序列中出现的频率，密码子已被分为稀有或丰富，而没有考虑mRNA水平或组织特异性表达差异。此外，密码子使用表未考虑可能影响密码子频率的其他变量，包括帧外或其他帧内起始事件产生的密码子使用，这可能会使密码子使用发生严重偏差。值得注意的是，几乎没有证据表明蛋白质合成受到指定为“稀有”的密码子的限制。该观点得到研究的独立支持，这些研究表明翻译起始而不是延伸是蛋白质合成的速率限制[49]。根据前面的论点，似乎被指定为rare的密码子可能被错误地分类并且可能不是翻译的速率限制

4.2 假设2：同义密码子可以互换而不影响蛋白质的结构和功能

有许多研究表明该假设是错误的[4-13]。原因之一是认为密码子的使用决定了伸长的节奏（elongation rhythm），这可能导致核糖体在某些部位减慢或暂停，并且在某些情况下对于正确的蛋白质折叠可能是必需的[50，51]。尽管稀有密码子与翻译速度降低和形成停顿位点有关，但情况似乎更为复杂，因为其他研究表明稀有密码子不一定会降低本地翻译率[51，52]。

一项研究显示，核糖体停顿的另一种解释是，同源tRNA和摆动tRNA的翻译以不同的速率发生，摆动（wobble）配对发生的速度更慢，在HeLa细胞中可达三倍[53]。作者建议，摆动依赖的伸长减慢可能已被选作蛋白质折叠的机制，因为它很大程度上与tRNA水平无关。解码效率的变化可以提供一种机制，以微调伸长的时间模式，这对于蛋白质构象可能很重要。

在大肠杆菌中，核糖体暂停涉及在mRNA编码区域中rRNA与Shine-Dalgarno样序列的碱基配对[54]。密码子优化的mRNA中的同义密码子替换可能会破坏基因一级序列中编码的信息。例如，通过去除与rRNA或其他RNA碱基配对而影响翻译的互补匹配，包括非编码RNA，例如microRNA（miRNA）。这些类型的相互作用会影响启动，分流，暂停，移码和重新启动，以及mRNA的稳定性[54-60]。除了破坏这些类型的相互作用之外，密码子优化可能会无意间引入新的RNA结合位点。

最近对蛋白质功能的筛选突显了同义密码子不一定可互换的事实。这项研究测试了具有同义密码子变体的342种抗体构建体，并且能够鉴定出抗体的表达，溶解度和结合亲和力发生了变化[61]。在最近的一项研究中，使用荧光蛋白基因进一步突显了同义密码子变化的影响，该基因经过改造后具有不同的荧光特性，具体取决于折叠结构[62]。这项研究表明，由于蛋白质折叠的改变，同义词的密码子改变改变了蛋白质的荧光性质。

4.3 假设3：用常用的密码子替换稀有密码子会增加蛋白质产量

支持这种可能性的例子是轶事。例如，当基因中的主要密码子被次要密码子系统地替换时，磷酸甘油酸激酶的表达就会减少[63]。相比之下，酵母中免疫球蛋白κ蛋白的表达可以通过用主要由丰富蛋白替换的密码子替换一半以上的密码子来增加[64]。参考[65]的表1中汇总了其他示例。但是，这些类型的研究的局限性在于它们不能说明可能无意影响表达的众多变量，也不能表明是否已测试其他密码子优化的变体。如果没有其他数据，就无法确定报告的效应是由于密码子偏倚改变还是其他机制引起的。其他研究不支持稀有密码子对蛋白质表达的假定影响。例如，使用甲醛活化酶同义变体的研究表明，酶的表达和细胞适应性与稀有或常见密码子的使用无关[6]。另外，其他研究提出了其他机制。例如，对核糖体足迹数据的分析表明，当核糖体翻译稀有密码子或稀有密码子簇时，翻译速度并不慢，但受氨基酸电荷的影响[66]。此外，影响延伸率的其他因素包括mRNA二级结构和密码子对tRNA库的适应性[67，68]。

Plotkin的小组对不同变量对蛋白质表达的贡献进行了更为实证的研究[2]。在这项研究中，合成了154个绿色荧光蛋白（GFP）基因的文库。这些基因在密码子使用上随机变化，但是都编码相同的GFP蛋白。当在大肠杆菌中表达时，整个文库中的荧光和绿色荧光蛋白水平相差250倍。但是，在表达水平（荧光）和密码子偏倚（使用两种方法进行评估）之间，或者在荧光与稀有密码子对的数量之间没有相关性。这项研究确实发现了密码子使用与细胞适应性之间的相关性，对于表达具有大量稀有密码子的mRNA的细胞而言，这种相关性较低。作者认为，高表达mRNA中的密码子使用会影响游离核糖体的数量和整体翻译，最终影响适应性。快速生长的细菌和酵母在高表达的基因中均表现出强烈的密码子偏好性。相比之下，高等真核生物表现出更少的密码子偏倚[69]。对于高度表达的基因，密码子偏倚与物种产生时间成反比，其变化超过四个数量级，而哺乳动物中的偏倚最低。因此，即使尚未像在大肠杆菌中那样对哺乳动物中的密码子使用进行系统的研究，也没有理由期望优化哺乳动物基因的密码子使用会增强蛋白质表达。

即使高表达的基因（至少在微生物中）进化出最佳的密码子偏倚，经常使用的密码子也不会引起高表达，这一事实表明，密码子偏倚本身并不一定能产生高表达，而是需要其他特征（另请参见[70,71]）。运动类比(athletic analogy)说明了这一原理。精英跑步者具有某些最适合跑步的功能，包括低体重指数。然而，低体重指数本身并不能使无运动能力的人在没有其他特征（包括高耐力，适当的生理机能和广泛的训练）的情况下达到精英跑步者的地位[72]。

五、密码子优化，新型肽，未知结果 Codon-optimization, novel peptides, unknown consequences

与密码子优化方法相关的一个隐含假设是，蛋白质表达主要或完全限于全长顺反子（cistron）的起始密码子。但是，这种假设是没有根据的。翻译通常从mRNA的多个位点开始，包括在AUG和非规范起始位点起始的框内和框外ORF。下面讨论的选定示例为替代启动提供了证据，并指明了其范围和重要性。

有许多个体mRNA从多个起始位点开始翻译的例子。在某些情况下，替代的ORF比主要的顺反子表达更多的蛋白质。在一个例子中，翻译是从合成mRNA中的两个AUG密码子有效地启动的，但是下游AUG密码子的相对使用可以通过各种因素显着增加，包括短的寡核苷酸和掩盖第一个AUG密码子的蛋白质复合物[73]。替代启动的重要例子也来自免疫系统的主要组织相容性复合体I（MHC）。例如，显示抗原肽是从框外CUG起始密码子翻译的[74]。此外，酵母[75]和哺乳动物细胞[76，77]中的核糖体图谱研究表明，翻译起始复合物在真核mRNA的多个起始位点形成。这些研究表明，多达三分之一的核糖体在位于编码序列内的多个近同源起始密码子处富集。能够分离N端肽的蛋白质组学研究提供了有关替代起始事件范围的确证数据[78，79]。

已经提出了多种机制来解释在多个起始位点的翻译起始（图4），包括泄漏扫描和重新起始（leaky scanning and reinitiation）[80]以及核糖体系留（tethering ）和聚类[81]。但是，无论提出哪种机制，都合成了数千种已知的肽，其中一些具有生物学活性[74，79]。密码子优化可以破坏其他翻译起始位点，还可以生成编码不同肽组的新位点（图4B）。对于相同的mRNA的不同密码子优化变体，这些肽会有所不同，并且可能会包含许多新颖的生物反应性肽。有些肽可能会触发免疫反应或干扰正常的细胞功能。有些可能起激素的作用，有些甚至可能是毒素。在核酸疫苗的情况下，密码子优化可能会丢失可能有助于治疗性免疫反应的天然存在的隐性肽。

六、密码子优化，mRNA编辑改变，新蛋白质组合 Codon-optimization, altered mRNA editing, new protein ensembles

由密码子修饰引起的另一潜在问题是转录后修饰的天然位点的破坏和新的引入。腺苷-肌苷（A-to-I）编辑是高级真核生物中最普遍的RNA编辑形式，在非编码序列中最常见。但是，它也出现在编码序列中[82，83]。这些部位的编辑程度可能在发育过程中发生变化，或显示出细胞或组织特异性[84，85]。另外，mRNA的编辑形式和非编辑形式可能存在于同一细胞中，并产生有助于正常细胞生理（physiology）的蛋白质异质性模式。

由于A-to-I编辑引起的RNA序列变化可对表达产生重大影响，因为肌苷被许多基因表达机制识别为鸟苷。在mRNA编码序列中，从A到I的编辑可导致氨基酸取代，可能会产生功能性后果。例如，大脑特异性的选择性剪接因子Nova 1在小鼠和鸡脑的胚胎发育过程中被时空编辑[82]。尽管从A到I的编辑不影响Nova 1的功能活性，但蛋白质的半衰期增加了。同样，组织特异的A-to-I编辑似乎会影响人胰岛素样生长因子结合蛋白7（IGFBP7）的蛋白水解过程，该蛋白会产生具有不同生物学活性的变体，从而可能改变细胞与细胞外基质的相互作用[83] 。

A-to-I编辑失调似乎促进了各种疾病的发病机理，包括肌萎缩性侧索硬化症（ALS）和神经系统各种癌症。在许多情况下，似乎是由于作用于RNA（ADAR）的腺苷脱氨酶的表达发生了变化，导致A-to-I整体编辑水平发生了变化[86]。在其他病理中也发现了A-to-I编辑水平的改变，与精神分裂症和躁郁症等ADAR酶的表达水平没有明确的联系[87]。另一个例子出现在高级神经胶质瘤中[88]，这特别有趣，因为对microRNA miR-376a *的A到I编辑受损导致种子序列中的单个核苷酸差异，从而改变了其与自分泌运动因子的靶标特异性Ras相关蛋白2A（RAP2A）的受体（AMFR）是两个在调节细胞侵袭中具有相反作用的mRNA，导致促进神经胶质瘤细胞迁移和侵袭。

目前，鉴定A-to-I编辑位点的最准确方法是对RNA群体进行测序[84]。尽管已经尝试了计算方法来预测编辑位点（例如参见[89]），但由于许多原因，它们似乎不足，最显着的是无法准确地预测体内形成的更高阶结构。因此，核酸治疗剂中的同义密码子改变可通过去除先前存在的编辑位点和/或引入新颖的编辑位点而导致RNA序列的意想不到的改变的编辑。这些改变可以通过引入或破坏miRNA种子序列来改变编码潜力，剪接甚至影响表达。密码子优化的mRNA的这些变化可能会导致蛋白质组成的变化，从而产生免疫学后果。另外，与上述隐性蛋白质产物一样，可能与某些变体有关，具有意想不到的功能效果或毒性。

七、另一个注意事项：tRNA通道

与密码子优化相关的其他理论考虑因素涉及tRNA通道化。在酵母中进行的实验表明，一旦使用了一次特定密码子，随后出现的相同氨基酸密码子就不会随机出现，而是倾向于使用相同tRNA的密码子[52]。这种效应在快速诱导的基因中最明显，涉及频繁和稀有密码子。此外，他们表明密码子相关性可加速翻译延伸。

八、结束语

密码子优化通常被建议作为生成适用于基因治疗和基因疫苗的高表达构建体的主要考虑因素。尽管可以使用这些方法提高蛋白质表达，但是很明显，mRNA包含与氨基酸代码重叠的许多信息层，并且这种复杂性可以通过密码子优化来破坏。一个更严重的问题是，至少在哺乳动物中，密码子最优化的科学依据不支持稀有密码子的使用限制蛋白质表达的速率。另外，使用密码子优化可能会产生严重后果，尤其是对于核酸治疗剂。在没有分析的情况下；这些潜在的问题包括：

破坏正常的关联和摆动tRNA使用的正常模式，影响蛋白质的结构和功能；
产生生物学活性未知的新型肽；
改变可能修饰蛋白质集合的转录后修饰。鉴于这些问题，我们建议对当前用于基因治疗和疫苗的密码子优化方法进行进一步研究，因为这些方法对患者的潜在风险可能超过其有用性（专栏1）。

有人可能会建议将用于人类治疗应用的构建体限制在未经修饰的天然基因序列上。但是，这种限制可能太过限制，特别是对于表达较差的基因而言。我们希望，一条更具建设性的前进道路将包括测试密码子优化的可能效果，其中可能包括对打算用于体内核酸治疗的构建体中隐性肽表达进行质谱分析。另外，为了解决可能会降低表达的特定潜在问题（例如剪接位点），同时避免了可能因整体变化而引起的问题，新方法的开发可能涉及将最少数量的特定靶向修饰引入天然基因序列，包括引入新颖的ORF。

强调

密码子优化是增加蛋白质产量的基因工程方法。
密码子优化方法的基础假设可能无效。
核酸疗法的密码子优化存在潜在的独特危害。
危险可能会因破坏或引入mRNA重叠功能而产生。

参考资料

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4253638/#BX1

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn