【3.1.1】蛋白质结构

这里,你将洞悉一个蛋白质到 底长什么样子(蛋白质三维结构),它和它的闺蜜手拉手拍合影的样子(蛋白质和蛋白质分 子对接),它嘴巴里塞满食物的样子(蛋白质和小分子分子对接),以及它在你身体里活动的 样子(分子动力学模拟)。

一、蛋白质的结构

蛋白质的结构 可分为四级:

  1. 一级结构也就是氨基酸序列;
  2. 级结构是周期性的结构构象,比如α螺旋β折叠等
  3. 三级结构是整条多肽链的三维空间结构
  4. 四级结构是几个蛋白质分子形成的复合体结构,比如三聚体,四聚 体等

蛋白质是由氨基酸组成的,前一个氨基酸的羧基和后一个氨基酸的氨基脱去一分子的水,缩合形成的 肽键。肽键将氨基酸连接起来形成肽链。成熟的肽链并不是一根松散的毛线,它要经过折叠变成一个毛线 团,即,形成空间立体结构。拥有了空间立体结构之 后,蛋白质才能上岗工作。

二、蛋白质的二级结构:DSSP 指认

蛋白质经过折叠后会形成规则的片段,这些规则的片段构成了蛋白质的二级结构单元 (见下图)。三种常见的二级结构单元包括螺旋、β折叠、和转角。螺旋中最常见的就是α螺旋, 但不只有α螺旋,还有其他的螺旋,比如 3 转角螺旋,5 转角螺旋等。β折叠由平行排列的β 折片组成。这些折片在序列上可能相隔很远,但是在空间结构上并排在一起,彼此间形成氢 键。除了螺旋和折叠外,蛋白质结构中还存在大量的无规律松散结构 coil。如果这些无规律 的肽链突然发生了急转弯,这个转弯结构就叫做β转角。

蛋白质的二级结构经常用图形来形象的描述。比如下图中黄色的箭头代表对应的氨基酸 具有β折片结构。波浪线代表螺旋结构,小鼓包是转角。此外,以字母形式书写的二级结构 序列能够更加精准的描述。其中,E 代表β折叠,H 代表α螺旋,T 代表转角。没有写任何字母的地方是松散的 coil 结构。

截至目前,并非所有已发现的蛋白质都有明确的二级结构信息。只有通过实验方法已经 解析出三维空间结构的蛋白质才有二级结构信息。这些二级结构信息是怎么得来的呢?是研究人员根据 DSSP (Definition of Secondary Structure of Proteins),也就是蛋白质二级结构定义词典,将三级结构里的二级结构单元指认出 来的。然后再按照规定的格式,记录下蛋白质中每个氨基酸处于哪种二级结构单元。这样一 个记录蛋白质二级结构信息的文件叫做 DSSP 文件。蛋白质结构数据库 PDB 中的每一个蛋 白质三级结构都有自己对应的 DSSP 文件。DSSP 文件里不同字母所代表的不同二级结构单 元和 PDB 里面的记录方式是统一的。

PS: 怎么定义出来的呢?

DSSP 的主页上( http://swift.cmbi.ru.nl/gv/dssp/ ),Introduction 部分有一个 Web server 链接。这个链接很容易让人误以为 可以通过它预测某条氨基酸序列的二级结构。这是不对的。DSSP 网站的 Web Server 可以指 认蛋白质结构文件,也就是 PDB 文件中的二级结构,并创建出相应的 DSSP 文件。提交的 PDB 文件可以是用实验方法刚刚解析出来,还没有提交 PDB 数据库的蛋白质三级结构,也 可以是用计算方法预测出来的蛋白质三级结构模型。总之,输入值必须是三级结构,而不是 一级的氨基酸序列。至于那些已经提交到 PDB 数据库中的蛋白质结构对应的 DSSP 文件可 以从 DSSP 网站提供的 fpt 网址直接下载:

直接下载PDB中已有结构的DSSP文件:

https://www.rcsb.org/pdb/home/home.do

PS: 下次下载以后,再来记录哈

三、蛋白质的二级结构:PDB 获取

PDB 数据库中(https://www.rcsb.org/pdb/home/home.do),一个蛋白质结构记录中的二级结构信息在 Sequence 标签下。从 序列图形化部分可以看到二级结构对应在一级结构上的图形化表示。点击左侧的“View S e q u e n c e & D S S P I m a g e ” 可 以 获 得 直 观 的 一 级 结 构 对 二 级 结 构 的 序 列 表 示 。 下图中 的 序列有两行,上面的一行是一级结构,下面的是二级结构。这个页面看上去很不错,序列 10 个字母一间隔,50 个字母一行,而且不同的二级结构还对应不同的字母颜色。但是在接 下来的分析研究工作中,我们往往需要的是像氨基酸序列那样的 FASTA 格式的二级结构序 列。想要从这个网页上单独保存下二级结构序列是很麻烦的事儿。需要一行一行的拷贝黏贴, 还需要删除行号。有位困难的是去除其中的空格,因为很难区分是格式里的空格还是代表松 散结构的空格。所以,这种形式的二级结构信息便于浏览,但是不便于保存。非常遗憾的是, PDB 里没有现成的针对某一个蛋白质的 FASTA 格式二级结构序列下载链接。“Download FASTA File”链接只能下载 FASTA 格式的一级结构序列,也就是氨基酸序列。

此外,PDB 数据库中有一个叫做“ss.txt”的文件:http://www.rcsb.org/pdb/files/ss.txt.gz (压缩文件 30.6M)。这个文件里面有 PDB 所有蛋白质结构的一级和二级结构的 FASTA 格式 序列。但是这个文件非常大!仅仅打开文件就要耗费许久时间,使用起来相当的不方便。那 难道就没个方便快捷的好办法,可以一下子拿到某一个蛋白质的二级结构序列吗?当然有。 你可以用老师我自己编写的小程序 http://1.51.215.28/~gongj/biotools/(图 3)。只需要输入 PDB ID,程序就会自动下载相应的 DSSP 文件,并从中抽取出一级和二级结构的序列信息, 最后以 FASTA 格式输出。

PS:这个小程序,山大的内网才能登陆额。后面到公司以后,可以给他们本地化掉。哈哈

五、 蛋白质的三级结构

蛋白质的三级结构是指整条多肽链的三维空间结构,也就是包括碳骨架和侧链在内的所 有原子的空间排列。第一个蛋白质的三维空间结构于 1958 年用 X-射线衍射法(X-ray Crystallography)测定。这种方法目前仍然是获取蛋白质三级结构的主要方法。PDB 数据库 中绝大多数蛋白质结构都是用这种方法测定的。另一个测定蛋白质三维空间结构的方法是核 磁共振法(Nuclear Magnetic Resonance, NMR)。无法结晶的蛋白质,可以利用核磁共振法在 液体环境中进行结构测定。但是核磁共振法只能用于质量小于 70 千道尔顿的分子,大约对 应 200 个氨基酸的长度。除此之外,还有一些不太常用的方法也可以测定分子的三维空间结 构,比如冷冻电子显微镜技术(Cyro-Electron Microscopy)。无论用什么方法测定的空间结构, 都要提交到 PDB 数据库。所以我们获取蛋白质三级结构最直接的办法就是去 PDB 搜索(图 1,http://www.rcsb.org/)。

从 PDB 首页的搜索条里,可以通过搜索 PDB ID、分子名称、作者姓名等 关键词来查找蛋白质三级结构。此外,利用高级搜索工具,可以通过序列相似性搜索获得与 输入序列在序列水平上相似的蛋白质的三级结构。搜索方法选 BLAST,输入序列(示 例文件:pdb_search.fasta),点击“Result Count”。此次搜索一共找到 108 个在序列水平上和 输入序列相似的蛋白质。点击链接“108 PDB Entities”。

搜索结果中,排在第一位结构是人的 dUTPase 蛋白的三维结构,PDB ID 为 2HQU。这个结构所对应的序列与输入序列中黄色片段之间的一致度是 100%。输入的序列中蓝 色区域是信号肽。信号肽在蛋白质到达亚细胞定位之后就被切掉了,所以解析的成熟蛋白质 结构里不会有这一段。此外,成熟肽段 N 端的一小部分,由于实验技术等原因,也没有被 解析出来,这在 PDB 结构中是很常见的。有时,在序列中间也会有未解析出的断口。甚至 有时,为了得到稳定的晶体状态,需要突变个别的氨基酸或者删除一截肽段。这些技术手段 都会使得结构中的序列和蛋白质本身的序列有所差别。

打开 2HQU 的数据库记录,下载对应的 PDB 文件,就获得了输入序列的三维空间结构。

参考资料:

山东大学 生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn