【4.7.3.5】结构比较--LGA score(LCS,GDT)

我们提出了LGA(局部-全局比对)方法,旨在促进以序列依赖和序列独立模式比较蛋白质结构或蛋白质结构片段。 LGA结构对齐程序可 从 http://proteinmodel.org/AS2TS/LGA/lga.html 作为在线服务获得。 LGA生成的数据可以成功地用于评分功能,以对两个结构之间的相似度进行排名,并在分析许多蛋白质时对结构进行分类。 LGA还允许蛋白质结构相似片段的聚集。

一、介绍

如果要比较同一蛋白质的两个略有不同的构象,则所有相应C-α原子的总均方根偏差(RMSD)将为两个结构之间的相似性提供有用的印象。不幸的是,仅一部分蛋白质的微小扰动(例如,在连接两个结构域的hinge中)会产生较大的RMSD,而且看起来这两个结构的整体差异很大。因此,期望在评估其相似性时也考虑蛋白质的局部区域。本质上,这样的“越界”区域越小,这两种结构越相似。如果将两个不同的蛋白质进行比较,而氨基酸残基之间没有预先指定的对应关系,则必须先生成序列独立的比对(残基对应关系),这又增加了另一水平的复杂性。

因此,我们有动力开发一种方法,该方法既要考虑局部结构又要考虑全局结构重叠,并且能够在没有预先指定的残基对应关系的情况下工作。我们将此方法称为“ LGA”,以进行本地/全局对齐。下面我们描述我们的算法并将LGA程序应用于几个测试案例,以突出其某些功能。

CASP5 之后,Zemla发文详细介绍了2种互为补充的算法:LCS & GDT,统称LGA(local / global alignment)[9],其中 GDT 早在 CASP3 就被作为 RMSD 的一个改进,目标是开发一种对蛋白的结构拓扑敏感的度量 [10]。

LCS 和 GDT 的定义很简单:

  • LCS: longest continuous segments under specified RMSD cutoff
  • GDT: global distance test under specified distance cutoff

LCS 是在预设的 CA-RMSD 阈值下,对齐两个分子的由连续残基组成的子结构,计算对齐的子结构之间的 RMSD,令符合此条件的连续残基片段最长。

可以设想:当这个预设的 RMSD 阈值很大时,两个分子对齐后,二者的 RMSD 小于阈值,那么 LCS 就是整条链;当这个阈值很小时,再如何调整可能也只能使得连续的几个残基在对齐后的 RMSD 小于阈值。极端情况就是2个残基,当然一条线无论如何可以对齐。

GDT 是在预设的 CA 距离阈值下,对齐两个分子,考虑对齐后有多少对残基之间的距离小于阈值,这些残基可以不连续,将符合条件的残基数除以分子的残基总数即可。

类似地,当距离阈值很大时,两个分子对齐后,所有对应的残基两两之间的距离都小于阈值,那么 GDT = 1;当距离阈值很小时,无论如何调整(整个分子的)对齐方式,最终散落分布在整个分子上的、符合距离条件的残基也不会很多,GDT —> 0。

从定义可以看出:LCS 关注的是局部(子)结构;GDT 比较的是全局结构。GDT 可以评估整体结构的拓扑,则难以反映局部结构的差异,如蛋白骨架构象、侧链的堆积等。

计算公式非常简单,其中 GDT_x 表示阈值为 x 的 GDT(公式16):

但是,想必大家也意识到了,获取 LCS 或者计算 GDT 的关键是“对齐算法”。当然可以用 RMSD 或者 TM-align 所用的对齐算法,再进行多轮迭代。Zemla 也是这么做的。考虑到这是一个 NP-hard 问题,基于 heuristic 的算法不能保证找到最优解。

2011年,李明教授和学生许锦波、卜东波、李帅成共同开发了optGDT算法,证明可以在多项式时间内近乎解析地找到最优解。[11]

1.1 LCS,Longest Continuous Segments

指定的CA RMSD截止下的最长连续段

该算法使用许多不同的叠加来识别预测中残基的所有最长连续段,这些残基与目标的偏差不超过指定的CA RMSD截止值。

如果预测中的每个残基是该片段的一部分,则将其分配给该片段中最长的片段。 还报告了在给定RMSD截止条件下预测中绝对最长的连续片段。

对于不同的CA RMSD截止值(1.0 A,2.0 A和5.0 A),将报告分析结果。

此度量可用于评估从头开始的3D和比较建模预测。

1.2 全球距离测试(GDT,Global Distance Test)。

该算法在预测中使用许多不同的叠加来识别与目标偏离的残基集,其残差不超过指定的CA DISTANCE临界值。

预测中的每个残基都分配给与目标偏离的最大残基集(不一定是连续的),且不超过指定的距离截止值。

此度量可用于评估ab-initio 3D和比较建模预测。

对于不同的DISTANCE截止值(0.5 A,1.0 A,1.5 A,… 10.0 A),报告了几种措施:

  • NUMBER_OF_CA_max : 可以在指定的距离截断下适合的“最大集合”中的CA数
  • PERCENT_OF_CA_Tg : “最大集合”中CA的百分比与目标中CA总数的比较
  • FRAGMENT: Beg-End :包含CA“最大集”的句段的开始和结束
  • RMS_LOCAL :根据CA的“最大集”计算的RMSD(均方根偏差)
  • RMS_ALL_CA :基于CA的“最大集合”将预测结构叠加到目标结构之后,在所有CA上计算的RMSD

二、评估蛋白质之间的结构相似性

大多数结构比较程序均基于以下原则:可以定义合适的评分功能,使其具有与给定蛋白质最重要的结构匹配相对应的最佳评分功能。许多已建立的比较技术通过两个数字来评估结构相似性,两个重叠结构之间的RMSD以及“等效”(结构对齐)残基的数量。但是,同时优化这两个数量非常困难,因为一个可以以牺牲另一个为代价进行优化。例如,基于距离矩阵对齐的结构对齐器DALI(1)通过将多个数字组合为一个单一的量(称为z-score)来解决优化问题。 ProSup(2)使等效残基的数量最大化,而RMSD保持接近恒定值。当在较小的局部区域中结构相似时,可能会出现另一个问题。当应用一个全局叠加时,可以忽略这些相似性区域。通常,在许多情况下,没有“最佳”叠加可以揭示出所比较蛋白质之间所有相似的区域。

为了在比较两个结构时解决这些问题,LGA程序生成了许多不同的局部超级位置来检测蛋白质相似的区域。 LGA评分功能包括两个部分,LCS(最长连续段,longest con- tinuous segments)和GDT(全局距离测试,global distance test),用于检测蛋白质之间局部和全局结构相似性区域。 在CASP的最后三个连续回合[蛋白质结构预测技术的关键评估(3-7)]中,对这两项措施进行了广泛的测试,从而为评估的3D模型提供了建设性的排名。 在比较两种蛋白质结构时,LCS程序能够定位并叠加可以适合所选RMSD临界值的残基的最长片段。 GDT算法旨在补充LCS搜索最大(不必要连续)的“等价”残基集的评估,这些残基偏差不超过指定的距离截止值。

2.1 由LCS和GDT算法生成的数据

为了生成有关两个蛋白质结构(分子1和分子2)或其片段之间局部相似区域的详细信息,将分子2的每个残基分配给最大的残​​基对集(分子1和分子2的C-α原子)是该集合的一部分,可以适合所选的RMSD(LCS算法)或距离(GDT算法)界限。如果对两个结构的分析仅基于限于一个选定的RMSD或距离截止的叠加,则它将无法提供有关两个结构之间相似性的完整信息;有些相似之处将被发现,而某些则不会。为避免此类限制,将针对一组越来越大的RMSD截断值[1 A(Angstrom),2 A和5 A]生成LCS结果,在GDT分析中,每0.5Å扫描两个结构,从0.5 A到最高10.0 A的距离截止值。这种方法使我们能够收集有关两个结构之间局部相似性的非常详细的信息。这种计算的结果以表1所示的格式报告。

在表1所示的输出中,第2–5列提供了来自两个比较结构的残基的信息,第6、7和8列分别显示了在1Å,2Å 和5ÅRMSD截止值下的LCS分析结果 。 例如,分子2的L-31残基是一个23个残基长的连续链段的成员,可以在1ÅRMSD截止值下与相应的分子1的残基重叠,但是残基E-32是该链段的一个元素 RMSD截止值为1 A时仅由八个残基组成。 在第9–28列中,报告了在0.5 A到10.0 A的距离截止范围内的GDT分析结果。 例如,残留物E-32属于一组四个残基(不一定是连续的),它们可以在0.5Å距离截止下适应,一组七个残基在1.0Å下适合,而25个残基在3.0Å下适合 。

2.2 GDT算法 The GDT algorithm

在GDT程序中,对两个结构之间的最佳重叠的搜索如下进行。对于来自两个结构的每个选定的三个,五个和七个残基长的片段对,计算RMSD和叠加。每个计算出的叠加都用作起点,以给出等效残基的初始列表(来自Molecule1和Molecule2的C-α原子对)。此类等效项的列表经过迭代扩展,以收集可在给定距离截断下适合的最大残差集。迭代过程的目标是在应用变换后排除比Molecule1和Molecule2之间的阈值(距离截止)更远的原子。从初始的原子对集合开始,算法如下:(a)获得变换; (b)应用转换; (c)识别距离大于阈值的所有原子对; (d)重新获得不包括那些原子的变换; (e)重复步骤(b)-(d),直到在两个运行周期中用于计算的原子组相同为止。

2.3 LCS和GDT算法是互补的

LCS算法的结果确定了蛋白质之间相似的局部区域,而由GDT鉴定的残基则来自结构中的任何地方(即无需保持序列连续性)。从这个角度来看,GDT检测到全局(而不是局部)相似性。使用GDT,我们专注于距离而不是RMSD。但是,使用LCS,我们可以优化(最小化)选定残基的RMSD。因此,从这个角度来看,LCS提供了完整且最佳的信息。目前尚不知道使用距离分析(最大范数)找到“最佳重叠”的最佳方法的方法,该方法将最小化所有选定残基之间的距离。结果只能近似。因此,为了找到“最佳”的全球结构匹配,GDT使用了许多距离截断和叠加。 GDT算法逐个“测试” Molecule2中的每个残基,尝试将其分配给与Molecule1相差不超过指定距离截止值的最大残基集(不一定是连续的)。 GDT会评估选定的但很多的叠加,实际上会产生一致可靠的结果。

2.4 LGA评分功能的说明

通过结合这两种技术(基于RMSD和基于距离),LGA不仅可以计算两种蛋白质之间的“最佳”重叠(意味着“在一定的RMSD和距离界限下”),而且还可以确定比较结构之间的局部相似区域。 在结构比对搜索过程中,对于每个生成的等价残基列表,将计算以下值:

  • LCS_vi 可以在vi Å 的RMSD阈值下拟合的残基百分比(连续集)(对于vi = 1.0、2.0 ,…)

  • GDT_vi 可以估计的残差百分比(最大集合)可在vi A的距离截止(vi = 0.5,1.0,…)下拟合。

评分函数(LGA_S)可以定义为这些值的组合,并且可以用于评估所选区域的结构相似性水平。 对于代表加权因子的给定参数w(0.0≤w≤1.0),我们通过以下公式计算LGA_S

LGA程序使用相同的评分功能,以依序列分析模式和依序列无关模式对结构相似性区域进行选择和排序。

2.5 NMR模型结构比较结果的图形表示

如何可视化两个结构之间的多重叠加结果(表1)? 让我们比较其伸长的Synechococcus elongatus kaia(KAIA135N)和25个成员的低能家族(指定为1m2f_A_n)的NMR平均模型1m2e_A。 在表2中,NMR模型按GDT_TS值排序。

在图1中,我们展示了如何使用彩色条形图绘制LGA程序的输出结果(表1和2中的数据)。 图1A或B中的每个条对应于一对已分析的结构。 条形的顺序与表2中的顺序相同。仅针对一种模型1m2f_A_2(表2和条形图中的第四条)提供Rasmol图(图1C和D)。

图1B显示,表1中报道的多叠加LGA分析结果可用于检测蛋白质与结构不同的蛋白质之间的相似区域。 基于单个叠加的分析(图1A)不能如此清晰地区分相似区域。

2.6 图形显示序列独立的数据库搜索结果

结构比对程序(例如LGA)的最大用途在于它们能够叠加蛋白质结构,而与序列同一性无关,并且能够检测结构相似性区域。 在表3中,我们提供了与已经提到的NMR平均模型1m2e_A(CASP5目标T0138)最接近的10个PDB结构匹配项的列表。 PDB数据库搜索是通过使用以序列独立模式运行的LGA程序执行的。 与其他结构相似的PDB条目的序列同一性(Seq_Id)级别非常低,约为12%。

LGA数据库搜索结果的图形表示在图2中给出。每个条形对应一个PDB数据库中蛋白质的命中。 条的排列顺序如表3所示。图2A显示了参考结构1m2e_A与表3所示的每个PDB数据库之间的结构相似性区域(绿色)。红色为高结构多样性区域。 给出了RasMol图(图2B)以获得最佳数据库匹配,即PDB蛋白1a04_B。

2.7 LGA与其他计划的比较

任何结构比较方法的重要要求是其检测弱结构相似性的能力。 在表4中,我们将LGA的结果与四种可用作为Web服务的方法的结果进行了比较,这些方法被科学界广泛使用:VAST(8),DALI(1),CE(9)和ProSup(10)。 该相同数据集用于ProSup与其他结构比对程序的比较[参考文献(10)中的表III]。

四、讨论

3.1 GDT和LCS作用

引入这两种度量(GDT和LCS)的目的是提供一种可用于更好地检测模型的相对好坏部分的工具。

  • 使用LCS,我们可以定位可在RMSD阈值以下拟合的模型的“最佳”连续(沿序列)部分:1A,2A和5A。三个蓝线代表可以在1A,2A和5A截止拟合的最长残基连续集。
  • 使用GDT,我们可以定位可以满足DISTANCE阈值的“最佳”残基集(不必是连续的):0.5A,1.0A,1.5A,…,10.0A。GDT图上有三条蓝线。每条线代表一组5%,10%或50%的残基,这些残基可在特定的距离截止值(Y轴)下拟合。 因此,最低的线代表所有目标残基的5%组中的残基(X轴)。 中线从10%组中识别出那些残基,从50%组中识别出最高的残基。

3.2 GDT和LCS区别

LCS和GDT之间的区别如下:

  1. LCS(最长连续段)基于RMSD截止值。
  2. LCS的目标是定位可以适合RMSD临界值的最长连续残基片段。
  3. 如果预测中的每个残差是该段的一部分,则将其分配给该段。
  4. 结果文件中提供的数据包含根据三个选定的CA RMSD截止值(1A,2A和5A)计算出的LCS  
  5. GDT(全球距离测试)基于DISTANCE截止值。
  6. GDT的目标是定位偏离目标最多不超过指定DISTANCE临界值的最大残基集(不必是连续的)。
  7. 如果预测中的每个残基是残差集合的一部分,则将其分配给所提供残差的最大集合。
  8. 结果文件中提供的数据包含根据若干DISTANCE截止值计算出的GDT:0.5、1.0、1.5,…,10.0埃(Angstroms)。

LCS算法给出的分析结果显示了该模型的相当局部的特征,而GDT中考虑的残基来自整个模型结构(它们不必保持序列的连续性)。

3.3 GDT程序如下

LCS发现的每个三个残基段和每个连续段都用作起点,以给出叠加的初始等价关系(模型目标CA对)。

等效项列表被迭代扩展,以产生可在考虑的距离截止条件下容纳的最大残差集。

为了收集有关最大残基集的数据,使用了迭代叠加过程(ISP, iterative superposition procedure)。

ISP方法的目标是从计算中排除在应用转换后,模型与目标结构之间的某个阈值(截止)距离大于某个值的原子。

从初始原子集(C-alphas)开始,算法如下:

  1. 获得变换
  2. 应用变换
  3. 识别距离大于阈值的所有原子对
  4. 重新获得变换,不包括那些原子
  5. 重复2-4,直到在两个运行周期中计算所使用的原子集相同为止

五、总结

优化等价残基的数量,同时保持RMSD恒定,可提供一种简单直观的结构相似性度量(如10所示)。 这样的措施可以有效地用于数据库搜索中的排名。 我们显示,在LGA中,成功实现了满足距离限制的附加要求,并广泛地分析了局部相似区域(来自具有多个距离的搜索和RMSD截止)。 我们的方法可以生成不仅提供有关全局相似度的详细信息,而且还提供有关蛋白质结构中局部相似性区域的详细信息的数据。 它允许对结构相似片段的聚类,以及使用此类聚类来识别代表局部结构基序的序列模式。

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn