【6.2.1】CHOPCHOP-v1

随着TALEN和CRISPR / Cas9方法的发展,基因组编辑的重大进展已成为可能。实施这些技术的速度和简便性导致突变和转基因生物的爆炸式增长。有效应用TALEN和CRISPR / Cas9方法的限速步骤是靶向构建体(targeting constructs)的选择和设计。我们开发了一个在线工具CHOPCHOP( https://chopchop.rc.fas.harvard.edu ),以加快设计过程。 CHOPCHOP接受各种输入(gene identifiers, genomic regions or pasted sequences),并提供一系列用于目标选择的高级选项。它使用高效的序列比对算法来最大程度地减少搜索时间,并严格预测单向导RNA(sgRNA)和TALEN的脱靶结合。每个查询都会产生该基因的交互式可视化结果,候选目标位点显示在其基因组位置,并根据质量得分进行颜色编码。另外,对于每个可能的靶位点,限制性位点和引物候选物都可以看到,从而简化了突变体生成和验证的流程。 CHOPCHOP的易用性和速度使其成为基因组工程的重要工具。

一、前言

许多细菌核酸修饰系统的发现,导致了两个模块化、精确的基因组编辑工具(1,2)的最新发展。 TALE(转录激活因子样效应物,transcription activator-like effector)和CRISPR / Cas(聚簇的规则间隔的短回文重复序列)系统最近经过优化,可用于在各种生物体中特异地引入突变并操纵转录激活和抑制(3–7) )。

TALEN是一种源自植物病原细菌的基因组编辑方法(2)。 TALE体系结构由三部分组成:

  • N末端结构域
  • TALE重复结构域
  • C末端结构域。

TALE重复结构域通常由34个氨基酸残基组成,其中第12和13个重复可变双残基(RVD,repeat variable di-residues)确定DNA核苷酸结合特异性(8,9)。每个RVD识别一个特定的核苷酸,从而产生简单的DNA识别代码:NI代表腺嘌呤,HD代表胞嘧啶,NG代表胸腺嘧啶,NH或NN鸟嘌呤(8-11)。重要的是,RVD可以顺序组装以结合任何给定的靶序列。为了进行基因组编辑,将TALE与FokI核酸酶结构域融合以创建TALE核酸酶(TALEN)。由于FokI仅以二聚体形式切割,因此必须以一对TALENs靶向位点,这些TALENs结合在DNA链的相对面上,间隔约14-20 bp。 FokI核酸酶结构域在间隔区序列中二聚并形成双链断裂(DSB,double-strand break)。 DSB可以通过易于出错的非同源末端连接(NHEJ,error-prone non-homologous end-joining)进行修复,这通常会导致插入缺失和潜在的移码突变。为了有效结合,TALEN靶序列在5’端需要胸腺嘧啶才能被TALE N端识别(3,8,9)。

CRISPR / Cas9系统源自细菌免疫系统,该系统已被用作可编程基因组编辑工具。化脓性链球菌(Streptococcus pyogenes)Cas9核酸酶通过单向导RNA(sgRNA)定向到基因组中的靶位点(4,5,12)。 Cas9 / sgRNA复合物结合一个20 bp的靶序列,然后结合一个3 bp的原间隔子相邻基序(PAM,protospacer adjacent motif)-NGG(两个不变的G加上一个可变碱基),并形成一种DSB,该DSB的修复方式似乎与TALEN相同诱导的DSB。尽管-NGG PAM基序的存在是结合的少数要求之一,但用于产生靶向的sgRNA的方法通常会施加其他限制。根据用于sgRNA合成的聚合酶的不同,5’末端的二核苷酸可能限于例如,对于常用的U6启动子(聚合酶III)为5’GN-,对于T7聚合酶则为5’GG-(4,5, 13)。此外,某些标准,例如鸟嘌呤-胞嘧啶含量(GC含量)似乎会影响结合效率(14,15)。这些以及确保目标适用性的其他指导方针已被用于手动设计sgRNA,以在多种生物体中产生突变和敲除,包括细菌,酵母,斑马鱼,非洲爪蟾,线虫,果蝇,小鼠和人类细胞。

TALEN和sgRNA设计要求鉴定满足某些序列要求的目标位点,同时避免基因组其他地方的脱靶。 多项研究表明,TALEN-尤其是基于Cas9的基因组编辑策略的特异性有限,突出了确定每个候选靶位点唯一性的重要性(3,6,23-27)。 现有的用于识别TALEN或sgRNA靶位点的工具(25,,28-34)存在局限性,包括接受几种输入格式,搜索时间慢,对TALEN或CRISPR / Cas9靶标设计的限制,靶标位点的最小化或不可视化 和/或有关潜在脱靶站点的有限信息(补充表S1)。

我们已经开发了CHOPCHOP,这是一个基于Web的工具,它使用户可以轻松快捷地从多种生物的基因中选择最佳的TALEN或CRISPR / Cas9靶序列。 为了克服先前工具的局限性,CHOPCHOP接受了广泛的输入,采用严格的脱靶搜索算法来预测基因组中每个靶位点的特异性(35),并在交互式图形界面中显示所有选项。 此外,为了加快验证过程,CHOPCHOP设计了用于聚合酶链反应(PCR)的目标位点特异性引物,并将它们与限制位点一起显示在基因环境中。

二、材料和方法

2.1 目标序列

CHOPCHOP接受三种输入形式:基因名称,基因组坐标或DNA序列。 如果用户提供了基因名称,CHOPCHOP可以通过查阅来自各种来源的基因表(例如University of California Santa Cruz (UCSC) Genome Browser(36))将其转换为相关生物的基因组坐标。 如果用户提供基因组坐标,例如以内含子为目标,则这些坐标(或来自基因表的坐标)由TwoBitToFa(36)解析,TwoBitToFa检索对应于基因组区域的DNA序列。 如果用户提供直接DNA序列,则将扫描此序列(或TwoBitToFa的序列)中是否有满足当前搜索序列要求(由用户决定)的所有潜在目标位点。

2.2 搜索目标外 (Search for off-targets)

Bowtie(35)使用适当数量的不匹配项(根据用户指定的选项为“ -v”模式)在目标站点的子区域(“ -L”种子模式)映射候选目标站点。在TALEN模式下,如果两个目标位点在用户确定的指定范围内,则会配对。然后,根据以下条件对每个sgRNA或TALEN对进行排名:

1.基因组中脱靶的数量(TALEN模式考虑单个脱靶和成对的脱靶)

2.脱靶中有多少错配目标。

此外,对于CRISPR / Cas9模式,结果按以下等级排名:

3.GC含量

4.sgRNA靶位点20位上鸟嘌呤的存在(14,15)。

然后将具有相同分数的任何靶位点按其在基因中的位置(优先选择5’位置)进行排序。 CHOPCHOP使用的特定指标在网站的“评分”下列出。这些都根据文献中的新发现进行了更新。对TALEN结果进行聚类和抑制,以避免在结果页面上显示多个等效的TALEN(例如,仅间隔序列的大小有所不同)。结果页面上将显示每个群集中排名最高的TALEN对。

2.3 可视化

交互式可视化由D3 JavaScript库(37)产生。 靶向基因或基因座显示在可缩放的界面中,每个sgRNA或TALEN对显示在其适当位置。 单击任何单个的sgRNA / TALEN靶位点会产生详细视图,显示位于所选靶区和限制位点侧翼的候选引物对。

2.4 Primer设计

跨越目标站点的引物对由Primer3(38)的批处理版本使用用户指定的选项设计。 默认参数是大小为18–25 bp(最佳:22 bp)的引物,产物大小为150–290 bp,引物Tm为57–63°C(最佳:60°C)。 然后,由Bowtie(35)将引物定位到基因组的其余部分(选项“ -v 0 –最佳–k 10”),然后根据其特异性进行排序。

三、结果

3.1 CHOPCHOP网络工具

CHOPCHOP是一种易于使用的Web工具,可在保持简单交互界面的同时最大程度地提高用户灵活性。 CHOPCHOP可以在CRISPR / Cas9模式或TALEN模式下运行。 它使用默认参数运行,但是接受一系列高级选项以进行更精确的搜索。 CHOPCHOP采用了功能强大的系统来查找脱靶位点,并在交互式表格和基因架构内显示输出。 CHOPCHOP还执行自动引物设计,以协助进行下游基因分型步骤。

3.2 Implementation

3.2.1 输入项

CHOPCHOP可以使用最少三个基本输入选项或附加高级参数来运行。 基本输入包括:

  1. 基因名称(接受RefSeq,ENSEMBL,FlyBase和WormBase gene ID),基因组坐标或粘贴序列;
  2. 越来越多的生物体(智人,小家鼠,达尼奥里奥,黑腹果蝇,秀丽线虫 3. 在CRISPR / Cas9或TALEN模式之间进行选择(图1)
  3. 高级选项允许用户靶向基因的子区域,例如5’UTR,3’UTR,剪接位点,完整外显子(包括UTR)或外显子的指定子集。

CRISPR / Cas9搜索模式可找到23 bp的目标位点,包括PAM基序。用户可以将该搜索限制为仅适合于使用特定聚合酶(例如RNA)合成的目标位点,例如, sgRNA 5’端的GG-或GN- / NG-。最近的报道表明,Cas9在基因组中可能具有大量脱靶活性(23-26),对错配的耐受性取决于sgRNA中的位置而显示出显着差异(4,25)。另一项研究表明,容许的错配数量取决于特定的sgRNA(23),这表明CRISPR / Cas9 sgRNA脱靶预测没有通用规则。因此,CHOPCHOP提供了多种已发布的目标偏离预测方法之间的选择。

  1. 一项研究发现,除了PAM motif中的任何位置,都可以容忍错配(25)。 CHOPCHOP提供了一种反映此规则的搜索模式,可在PAM上游的所有碱基之间搜索不匹配。这是默认模式。
  2. 另一项研究发现,PAM高达11 bp 5’的单碱基错配完全消除了Cas9的切割作用(4)。相反,PAM上游的突变保留了切割活性。因此,CHOPCHOP提供了另一种搜索模式,该模式仅在不匹配仍会导致切割的区域中,定位不匹配的脱靶目标。
  3. 最后,CHOPCHOP提供了一种快速模式,该模式仅搜索整个基因组中sgRNA靶序列的完美匹配。

TALEN搜索模式在相对链上定位目标位点对,并以14-20 bp的间隔序列隔开,要求两个位点的5’端均具有T。 TALEN特定的选项允许用户通过更改间隔序列的长度和目标位点的长度,将目标搜索迎合特定的TALEN体系结构。 此外,根据所使用的组装套件,用户可以选择使用RVD’NN’用于鸟嘌呤,还是使用’NH',后者已被证明比NN更能结合鸟嘌呤(10,11)。 TALEN脱靶结合似乎不具有与CRISPR / Cas9 sgRNA相同的位置特异性复杂性,因此TALEN脱靶方法可在每个位点搜索具有0、1或2个错配的脱靶。 默认方法搜索两个不匹配。

为了分析Cas9或TALENs是否成功切割了目标基因座,用户可能需要扩增目标区域,以便通过深度测序或T7E1分析等方法进行进一步分析(39)。 因此,CHOPCHOP使用Primer3将引物设计与sgRNA / TALEN目标位点设计整合在一起(38)。 设计引物来扩增切割位点周围的区域,并针对基因组进行定位,以避免脱靶产生相似长度的扩增子。 在高级选项中,用户可以调整引物规格,包括扩增子大小,引物Tm,引物长度以及每个引物与靶位点之间的最小距离。 此外,一些用户可能更喜欢使用限制酶消化评估成功的诱变作用。 CHOPCHOP允许用户从特定的限制酶公司选择限制位点,并且允许用户指定限制位点的最小大小。

3.2.2 输出

大多数CHOPCHOP查询都在几秒钟内执行,结果显示在交互式表格和交互式基因模型中。 CHOPCHOP根据许多条件对搜索结果进行排名。 TALEN和CRISPR / Cas9模式均按以下等级进行排名:

  1. 脱靶的数量
  2. 脱靶是否包含错配或完美命中,
  3. 目标位点位于基因(许多用户希望创建移码/无效突变,因此更喜欢在基因的5’端进行突变)。

此外,对于CRISPR / Cas9模式,结果按

4.GC含量排名。最近的报道表明,sgRNA最有效,GC含量在45%到80%之间,

5.靶位点20位的鸟嘌呤与活性提高相关(14,15)。

对于TALEN模式,通过单个TALEN靶位点是否出现在基因组中的其他位置,或一对中的两个成员是否位于彼此的切割距离之内,来对脱靶进行特定评分。对于CRISPR / Cas9和TALEN模式,结果表均提供目标位点的序列,其排名,基因组位置(包括外显子和方向)以及0、1或2个错配的潜在脱靶数目(图1) 。 CRISPR / Cas9模式还提供了sgRNA靶位点的GC含量,TALEN模式提供了位于两个TALEN之间的间隔区的限制性酶切位点,以及应为该靶位点合成的RVD。 CHOPCHOP还提供了该基因的交互式图形表示,每个sgRNA或TALEN目标位点根据排名进行了颜色编码(图1)。这使用户可以根据候选靶标在基因中的位置以及它们在整个基因组中的特异性来检查候选靶标。图形输出使用D3 JavaScript库(37)生成,并允许用户缩放和滚动基因。最后,用户可以下载包含搜索结果的文本文件,以及带有或不带有内含子的带有目标位点的DNA序列的GenBank文件。

可以在单独的详细视图中检查单个target sites ,以显示有关偏离目标的基因组位置以及偏离目标的站点内错配位置的其他信息(图2)。在此特定区域内放大时,DNA序列变得可见。对于TALEN,基因视图抑制了基本重叠的TALEN对的可见性,从而避免了冗余。但是,在详细视图中,如果用户希望在相同的近似位置使用其他目标序列,则会列出所有聚类目标。详细视图还向用户展示了周围区域中可用于测试裂解活性的所有限制酶切位点。限制位点将根据其在区域内是否唯一进行颜色编码。最后,详细视图显示了位于目标位点两侧的引物对,并且可下载目标区域的GenBank文件,其中包含目标位点的注释和引物设计。

四、结论

CHOPCHOP是一种用户友好的网络工具,可为任何基因组区域找到最佳的CRISPR / Cas9和TALEN目标位点,并以交互,直观的方式显示信息。 CHOPCHOP加快了基于CRISPR / Cas9或TALEN的突变的设计过程,具有快速的运行时间,强大的脱靶预测能力和集成的引物设计。

CHOPCHOP具有许多使其与目前可用的其他CRISPR / Cas9或TALEN工具分离的功能(补充表S1)(25,,28-34)。

  1. CHOPCHOP接受广泛的输入-基因标识符,基因组区域或粘贴的序列-使其适合广泛的用途
  2. CHOPCHOP提供了动态的图形输出显示,其中包括对该基因的交互式可视化显示,每个Cas9 / TALEN目标位点均显示在其基因组位置,并根据其质量进行颜色编码。基因模型中所有可能靶位点的可视化使最佳候选者的选择变得容易,并且是设计两个sgRNA的理想系统,这在越来越流行的双切口酶方法中得到了应用(40)。
  3. 与大多数工具不同,CHOPCHOP将TALEN和CRISPR / Cas9目标设计整合到一个工具中。
  4. CHOPCHOP提供自动引物生成和限制性位点可视化,以进行基因分型。
  5. CHOPCHOP提供可下载的结果,包括带有基因外显子,内含子和靶位点注释的GenBank文件,以及带有引物设计的特定靶区域的GenBank文件。

CHOPCHOP创建了从突变设计开始到结束的简化流程,并且是基因组编辑技术的宝贵新资源。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn