【6.1.1】一级蛋白质结构数据库-PDB

蛋白质的结构可以分为四级。一级结构也就是所谓的氨基酸序列。二级结构是我们 熟悉的α螺旋和β折叠等。三级结构是蛋白质的三维空间结构。四级结构是几个蛋白质分子的 复合体结构。

一、PDB介绍

蛋白质结构数据库 PDB(http://www.rcsb.org )是全世界唯一存储生物大分子 3D 结构 的数据库。这些生物大分子除了蛋白质以外还包括核酸以及核酸和蛋白质的复合物。只有通 过实验方法获得的 3D 结构才会被收入其中。PDB 最早是于 1971 年由美国 Brookhaven 国家 实验室创建的,当时只存储了 7 个结构。1998 年,结构生物信息学合作研究协会 RCSB 成立。 之后 PDB 的维护工作主要由 RCSB 负责。现在,PDB 数据库每周更新一次。至今,PDB 收 录的结构已超过十万个,其中 90%以上是蛋白质结构。下面我们就来看看 PDB 数据库中的 一个蛋白质结构。

在进入数据库之前请大家先回忆一下,我们在讲 PubMed 数据库时,3D 小人 Jim 从 PubMed 数据库找到了一位北京大学的 Su 教授,Su 教授专门研究 dUTPase 的结构。Jim 找到 的那篇文章就是 Su 教授发表的一种革兰氏阳性菌的 dUTPase 蛋白晶体结构。那么我们接下 来,就从 PDB 里查找一下 Su 教授解析的这个结构。

在 PDB 网站的搜索条中输入 “Su X D dutpase”,也就是把作者的名字和蛋白质的名字 同时输入搜索条,然后点 go。通过关键词搜索,一共找到两个结构。其中第一个是一种革 兰氏阳性菌的 dUTPase 蛋白晶体结构。点击结构图片,打开关于这个结构的数据库记录。

PDB 数据库的检索号,俗称 PDB ID,是由字母和数字组成的四位编号。一个结构对应 一个 PDB ID,而不是一个蛋白质对应一个 PDB ID,因为同一个蛋白质在 PDB 数据库中可 以有很多个结构。他们可以是不同作者提交的,也可以是一个蛋白的不同结构形态。当前这 个结构的 PDB ID 是 3H6X。接下来我们看看一个 3D 结构是怎么存储在数据库里的?网页 上的信息都是关于这个结构的基本描述以及解析结构所用的实验参数。真正的结构信息要从 Download files 里面下载。结构信息存储在 PDB 格式的一个纯文本文件里,这种文件叫做 PDB 文件。PDB 文件都是以 PDB ID 命名,以“.PDB”为后缀,可以用记事本打开。

二、PDB 文件注释解读

PDB 文件和我们之前见过的 GenBank 还有 UniProtKB 的纯文本数据库记录差不多。也 是每行有条目索引词,后面是具体内容。我们通过浏览 3H6X 的 PDB 文件,看看这样的文 本记录如何呈现 3D 结构。

第一部分:头信息

  • HEADER:蛋白质结构的基本信息描述,包括分子类别,存储日期,PDB ID
  • TITLE:结构的标题
  • COMPND:对结构中各个分子的描述。从这里可以看出 3H6X 这个结构是由三条链形成 的三聚体结构。
  • SOURCE:结构中所包括的每一个分子的实验来源。
  • KEYWDS:用于数据库搜索的关键词
  • EXPDTA:测定结构所采用的实验方法。PDB 中绝大部分结构都是通过 X 射线衍射法测 定的,少数是核磁共振法,极少数是使用包括电子显微镜在内的其他方法测定的。
  • AUTHOR:作者信息 REVDAT:历史上曾经对该数据库记录进行过的修改。 JRNL:发表结构的文献信息。
  • REMARK:无法归入其他部分的注释。

第二部分:一级结构信息(也就是氨基酸序列)

*DBREF:该蛋白质在蛋白质序列数据库里的检索号等信息。

  • SEQRES:氨基酸序列。
  • MODRES:对标准残基上的修饰,比如第 56 号位置的蛋氨酸被硒代蛋氨酸所取代。

第三部分:非标准残基信息

  • HET:非标准残基及位置。
  • HETNAM:非标准残基的化学名称。
  • FORMUL:非标准残基的化学式。

第四部分:二级结构信息

  • HELIX:位于螺旋结构上的氨基酸所在位置及所属链。
  • SHEET:位于折片结构上的氨基酸所在位置及所属链。
  • TURN:位于转角结构上的氨基酸所在位置及所属链。
  • Link:残基间的化学键。比如 106 号氨基酸上的 C 与 107 号氨基酸上的 N 之间的化学 键是肽键!键长 1.32 埃。除了肽键还可能有氢键,二硫键等等。

第五部分:实验参数信息

  • CRYST1:晶胞参数。
  • ORIGXn:直角-PDB 坐标。
  • SCALE*:直角部分结晶学坐标。

第六部分:3D 坐标信息

  • ATOM:PDB 文件中最重要的,也是篇幅最长的就是 3D 坐标部分。每一行是一个原子 (图 1)。包括原子号,原子名,这个原子所在氨基酸的名字,属于哪条分子链以及所在氨 基酸的编号。后面这三个数就是这个原子在三维空间里的坐标,X 轴 Y 轴和 Z 轴。通过这 个 3D 坐标,蛋白质的每一个氨基酸上的每一个原子都能找到自己的空间位置。所有原子按 照各自的空间位置站好,就构成了整个蛋白质的空间结构。至此,我们终于知道了 PDB 是 如何存储 3D 结构了。它存储的实际上是原子的 3D 坐标。

  • CONECT:原子间化学键连接信息。
  • MASTER:版权拥有者信息。
  • END:结束符。

三、PDB 文件 3D 展示-Jsmol

纯文本的 PDB 文件虽然很清楚的交代了有关这个结构的全部信息,但是对于 3D 结构 还是没有直观的呈现。我们很难凭原子的 3D 坐标想象出一个结构到底长什么样子。不用着 急,目前已经有很多软件可以实现 3D 坐标的可视化。这些软件会创建一个三维空间,然后 根据原子坐标以及原子的大小把原子展示在空间内,并根据原子间的距离给他们连上化学键。 这样一个立体的蛋白质结构就呈现在眼前了。PDB 数据库就提供这样一个在线的可视化软 件,叫 JSmol。

JSmol 基于 JAVA 开发,所以需要先安装 java 运行环境。JAVA 可以到 JAVA 官网下载。安装好 JAVA 后,重启浏览器,打开这个网页,点 JSmol 链接,之后,接受 java, 信任 java,运行 java。(如果 IE 浏览器打开 JSmol 有问题,可以尝试 360 等其他浏览器。)

网页加载完成之后,页面上会出现一个图片。这个图片貌似是当前这个蛋白质的结构图。 没错,是 3H6X 的结构,但他不是图。因为你可以把鼠标移到黑色窗口里,按住鼠标左键, 这时鼠标箭头变成了一个十字箭头。继续按住鼠标左键不放,同时左右移动鼠标,就会看到 蛋白质动起来了。 按照 JSMOL 的操作规则,按住鼠标左键拖拽是旋转结构,鼠标中键可以放大缩小,右 键可以打开 JSmol 菜单,进行更多操作。通过设置右边的参数,可以改变 3D 结构的显示方 式。比如可以把 Color 改为 Subunit,这样就可以清楚的区别开三聚体中的每一条链了。

在线版本的 JSmol 可以方便快捷的查看结构,但是功能不够全,特别是缺少分析功能。

其他

PDB文件下载:

https://www.rcsb.org/pages/download_features#Structures

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn