【3.3.1.2】QGRS

https://bioinformatics.ramapo.edu/QGRS/analyze.php

富含鸟嘌呤的核酸序列能够形成称为 G-四链体(也称为 G-四分体或 G4-DNA, G-tetrads or G4-DNA)的四链结构。 它们由方形排列的鸟嘌呤(四分体)组成,通过 Hoogsteen 氢键稳定。 四分体中心存在一价阳离子(尤其是钾),进一步稳定它们。 它们可以由DNA、RNA、LNA和PNA形成,并且可以是分子内的、双分子的或四分子的。 根据形成四分体的股线或股线部分的方向,结构可以被描述为平行或反平行。

图1: Structure of a G-quadruplex. Left: a G-tetrad. Right: an intramolecular G-quadruplex

图2: 3D Structure of the intramolecular human telomeric G-quadruplex in potassium solution (PDB ID 2HY9). The backbone is represented by a tube. The center of this structure contains three layers of G-tetrads. The hydrogen bonds in these layers are represented by blue dashed lines

由富含鸟嘌呤的核酸序列形成的四链体结构最近受到了极大的关注,因为越来越多的证据表明它们在重要的生物过程中的作用和作为治疗靶点。G-四链体 DNA 被认为可以调节 DNA 复制并可能控制细胞增殖。能够在 RNA 中形成 G-四链体的序列已被证明在哺乳动物转录物中多聚腺苷酸化和剪接事件的调节中发挥重要作用。四链体结构是否直接在调节RNA加工中发挥作用还需要研究。

一、背景

1.1 端粒四链体 Telomeric quadruplexes

多种生物体中的端粒重复已被证明在体外形成这些结构,并且在某些情况下它们也被证明在体内形成。 人类端粒重复序列(对所有脊椎动物都相同)由序列 d(GGTTAG) 的许多重复序列组成,由该结构形成的四链体已通过 NMR 和 X 射线晶体结构测定进行了深入研究。 端粒中这些四链体的形成已被证明会降低端粒酶的活性,端粒酶负责维持端粒的长度,并与大约 85% 的癌症有关。 这是药物发现的一个活跃目标。

1.2 非端粒四链体

最近,人们对端粒以外位置的四链体越来越感兴趣。 Simonsson [1] 和 Hurley [2] 对原癌基因 c-myc 的研究极大地推动了这一点,该基因在对基因活性至关重要的核酸酶超敏感区域形成四联体。 从那时起,许多其他基因已被证明在其启动子区域具有 G-四链体,包括鸡 β-珠蛋白基因、人泛素连接酶 RFP2 和原癌基因 c-kit、bcl-2、VEGF、H-ras 和N-ras。 这个名单还在不断增加。

基于四重折叠规则的全基因组调查已经进行,已在人类基因组中识别出 376,000 个推定四重序列 (PQS),尽管并非所有这些都可能在体内形成。 [3] 一项类似的研究已经确定了原核生物中假定的 G-四链体[4]。对于四链体如何通过上调或下调来控制基因活性,有几种可能的模型。 如下所示的一种模型,在启动子内或附近形成 G 四链体,阻断基因转录,从而使其失活。 在另一种模型中,非编码DNA链上形成的四链体有助于维持编码DNA链的开放构象并增强相应基因的表达。

四链体介导的基因表达下调模型

1.3 结合四链体的配体 Ligands which bind quadruplexes

诱导或稳定G-四链体形成的一种方法是引入可以与G-四链体结构结合的分子,并且已经开发了许多可以这样做的配体,包括小分子和蛋白质。 这已成为一个越来越大的研究领域。

已经鉴定出许多天然存在的蛋白质选择性地结合G-四链体。 其中包括与布卢姆综合征和沃纳综合征有关的解旋酶以及酿酒酵母蛋白 RAP1。 还开发了一种人工衍生的三锌指蛋白(称为 Gq1),它对 G-四链体具有特异性,并且具有特异性抗体。

阳离子卟啉已被证明可以与 G-四链体以及端美他汀分子嵌入结合。

1.3 四重预测技术

识别和预测能够形成四链体的序列是进一步了解其作用的重要工具。 已经提出了预测形成的规则,其中预测序列基于模式 d(G3+N1-7G3+N1-7G3+N1-7G3+) 折叠,其中 N 是任何碱基(包括鸟嘌呤)。 该规则已广泛应用于在线算法中。

二、QGRS Mapper 程序

的主要目标是预测核苷酸条目中 QGRS 的存在。这些假定的 G-四链体使用以下基序进行鉴定。:

G x N y1 G x N y2 G x N y3 G x

这里x =G-四联体中鸟嘌呤四分体的数量并且y 1、y 2、y 3 =间隙长度(即连接鸟嘌呤四分体的环的长度)。该基序由四组等长的鸟嘌呤(我们称之为 G 基团)组成,由任意核苷酸序列分隔,具有以下限制。

  • 该序列必须包含至少两个四分体(即x ≥ 2)。尽管具有三个或更多G-四分体的结构被认为更稳定,但已知许多核苷酸序列与两个G-四分体形成四联体( 37 , 38 )。QGRS Mapper 旨在成为研究 G 四联体的灵活且全面的工具;因此它考虑具有两个四分体的序列。

  • 默认情况下,仅考虑最大长度为 30 个碱基的 QGRS。然而,该程序为用户提供了搜索最多 45 个碱基的序列的选项。这种对所考虑的序列长度的限制与最近的文献一致( 34 , 35 )。30 个碱基的最大长度将 G 组的最大大小限制为 6。

  • G基团之间的间隙或环在组成或长度上可以是任意的(在QGRS长度的总体限制内)。该程序为用户提供了搜索具有指定长度范围的循环的QGRS的选项(例如,用户可以搜索具有长度在1和4之间的循环的QGRS)。用户还可以指定每个 QGRS 的一个或多个循环必须包含的字符串。该字符串可以作为正则表达式给出。例如,输入正则表达式“T{3,5}”将搜索具有一个或多个包含三到五个连续 T 的循环的 QGRS。

  • 另外,最多允许一个间隙的长度为零

表 1显示了有效 QGRS 的一些示例。形成四分体的鸟嘌呤基团标有下划线。

第一个序列有四个四分体和等长的间隙。这似乎提供了三个序列中最稳定的 G 四链体。第二个序列因其循环大小的显着差异而值得注意。第三个序列有两个四分体,尽管三个 G 组可能包含另一个 G(因为所有 G 组的大小必须相等)。

2.2 G 分数

我们设计了一个评分系统来评估 QGRS 形成稳定 G 四联体的可能性。得分较高的序列将成为 G-四链体的更好候选者。评分方法使用以下基于先前研究的原则 ( 34 , 35 , 39 – 42 )。

较短的循环比较长的循环更常见。

G-四链体往往具有大小大致相等的环。

鸟嘌呤四联体的数量越多,四联体越稳定。

计算的 G 分数取决于用户选择的最大 QGRS 长度。使用默认最大 QGRS 长度 30 时,可能的最高 G 分数为 105。以下是获得该分数的序列:

GGGGGG T GGGGGG T GGGGGG T GGGGGG。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn