【1.6.1】NCBI概述

NCBI (National Center for Biotechnology Information,美国国立生物技术信息中心)于1988年11月4日建立,是NIH(美国国立卫生研究院)的NLM(国立医学图书馆)的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。 目前有将近40个在线的文库和分子生物学数据库,包括:PubMed, PubMed Central, and GenBank等。网址: https://www.ncbi.nlm.nih.gov/

一、任务

  1. 为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统;
  2. 从事研究基于计算机的信息处理过程的高级方法,用于分析生物学上重要的分子和化合物的结构与功能;
  3. 促进生物学研究人员和医护人员应用数据库和软件;
  4. 努力协作以获取世界范围内的生物技术信息。

二、内容

2.1 文献数据库

包括:PubMed,PubMed Central,Books等

2.2 序列资源库

包括人,小鼠,果蝇,线虫等各种物种的基因组数据库

包含DNA,RNA,蛋白等各种类型的数据

如:SNP,GEO,SRA等

2.3 常用序列分析工具

  • Entrez – 数据挖掘的工文本条件查询工具(Text Term Searching) 来自于超过10万个种物的核酸和蛋白序列数据,连同蛋白三维结构,基因组图谱信息和文献信息检索 网址:https://www.ncbi.nlm.nih.gov/gquery/

  • BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

2.4 数据下载与上传

数据下载接口:ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有:Sequin,tbl2asn等,链接地址:https://www.ncbi.nlm.nih.gov/guide/data-software/

2.5 其他合作项目

我们比较常用的就是检索文献,检索序列,比对序列。了解更多内容可以参考官网手册:https://www.ncbi.nlm.nih.gov/books/NBK143764/

三、NCBI基因注释的数据

NCBI上基因注释的文件

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2refseq.gz
#该文件夹中还有其他的文件

The tax_id (taxonomy ID for C.Elgans is 6239 ) [ from Taxonomy browser http://www.ncbi.nlm.nih.gov/taxonomy ]

下载数据

wget -nc ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz

可以这样来提取信息

bash-3.00$ cat gene2refseq | awk '{if ($1==6239) print $0}' | head
6239	171590	REVIEWED	NM_058260.3	193203640	NP_490660.1	17510631	NC_003279.6	193203938	4123	10231	-	-
6239	171591	REVIEWED	NM_058259.3	193203639	NP_490661.1	17510629	NC_003279.6	193203938	11498	16830	+	-
6239	171592	REVIEWED	NM_058261.3	133902001	NP_490662.1	17510633	NC_003279.6	193203938	17496	26780	-	-
6239	171592	REVIEWED	NM_058262.3	86561628	NP_490663.1	17510635	NC_003279.6	193203938	17496	26780	-	-
6239	171593	REVIEWED	NM_058263.3	115533565	NP_490664.2	115533566	NC_003279.6	193203938	27594	32481	-	-
6239	171594	REVIEWED	NM_058265.3	71995026	NP_490666.2	25143331	NC_003279.6	193203938	49918	54359	+	-
6239	171595	REVIEWED	NM_058267.4	115533567	NP_490668.4	115533568	NC_003279.6	193203938	55315	64020	-	-
6239	171597	REVIEWED	NM_058269.2	71995034	NP_490670.1	17510145	NC_003279.6	193203938	85044	86283	-	-
6239	171599	REVIEWED	NM_058271.6	212645149	NP_490672.2	25143337	NC_003279.6	193203938	93030	94880	+	-
6239	171600	REVIEWED	NM_058272.4	212645150	NP_490673.1	17510147	NC_003279.6	193203938	96478	100612	-	-
-bash-3.00$ cat gene_info | grep 171590 | awk '{if ($1==6239) print $0}'
6239	171590	Y74C9A.3	Y74C9A.3	-	WormBase:WBGene00022277	I	-	hypothetical protein	protein-coding	-	-	-	-	20101017

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn