【1】生物数据库概述

January 15, 2018 biodatabase 阅读量：次

一、生物数据库的目的

收入的数据要能方便的访问，要能根据各种条件进行搜索，当然有变动或有新注释的时候还要能够更新。这样一个存储数据的空间加上一套完善的管理系统才能构成一个完整的数据库系统。因此我们说，生物数据库是被组织起来的大量生物数据，这些数据通过计算机可被方便的访问、管理及更新。

二、生物书库的分类

这个世界上，到底有多少生物数据库?很难统计，但是用成百上千这个词儿一点儿也不夸张。著名的学术期刊 Nucleic Acids Research 有一个生物数据库专刊。有点儿规模的数据库都争相在这里发表。包括 Genbank，PDB 等等，都在这里发表更新版本。截止 2015 年底，这个专刊收录的生物数据库累计 1685 个。当然还有一些在其他刊物发表的小型专项数据库。加上这些，目前世界上得有超过 2000 个生物数据库。当然，不是所有数据库都是活的。NAR 数据库专刊曾经发文指出，已发表的数据库中有相当数量的数据库在发表之后就死去了。事实上，数据库不是一个可以放在那里保质期无限长的罐头，他需要专业人员不断的管理、维护和更新。这些工作一旦停止，数据库便立刻失去了生命力。所以如果将来有一天，你也有了自己开发的数据库，请善待它，不要轻易抛弃他。

可是这么多数据库，一节课讲不完，甚至一年也讲不完啊!所以这里只挑最重要的，最常用的，以及和大家的专业最密切相关的几个数据库进行讲解。

正是因为数据库太多，所以大家特别喜欢给他们分类。不同的教材分类原则不同，也就是没有标准的分类方法。我们这里选取了比较好理解的原则，把生物数据库首先分成三大类：

核酸数据库
蛋白质数据库
专用数据库

核酸数据库顾名思义，是与核酸相关的数据库。
蛋白质数据库是与蛋白质相关的数据库。
而专用数据库是专门针对某一主题的数据库，或者是综合性的数据库，以及无法归入其他两类的数据库。

核酸数据库和蛋白质数据库又分为一级和二级。一级数据库存储的是通过各种科学手段得到的最直接的基础数据。比如测序获得的核酸序列，或者 X 射线衍射法等获得的蛋白质三维结构。蛋白质的一级数据库还可以再具体分为蛋白质序列数据库和蛋白质结构数据库。二级数据库是通过对一级数据库的资源进行分析、整理、归纳、注释而构建的具有特殊生物学意义和专门用途的数据库。比如从三大核酸数据库和基因组数据库中提取并加工出的果蝇和蠕虫数据库，再比如根据蛋白质三维结构数据库中的结构信息，分析统计出的蛋白质结构分类数据库 CATH 和 SCOP 等。

PLOS-ONE上的一篇文章利用bioNerDS工具分析了Pubmed的 5,411,968篇文献的语料库，最终得到下列生信领域的资源使用排名：

从这张表，我们可以明显发现生信领域的NCBI-GenBank, UniProt, GO, KEGG和GEO等数据库的使用频率都非常高。后面我们回来聊聊这些数据库

参考资料

山东大学生物信息学课题组荣誉出品 http://www.crc.sdu.edu.cn/bioinfo 巩晶老师课件
戴文韬上海宇道生物技术有限公司《实用肿瘤生物信息学讲座》
https://blog.csdn.net/Candle_light/article/details/83098835

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn