【7.2】遗传变异主要的数据库-dbSNP(单核苷酸多态性)

单核苷酸多态性(single nucleotide polymorphism,SNP) 主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上。dbSNP(The Single Nucleotide Polymorphism database) 是一个公共的核酸多态性的数据库,它是关于单碱基替换以及短插入、删除多态性的资源库。网址:https://www.ncbi.nlm.nih.gov/projects/SNP。

一、最新版本

人的dbsnp目前已更新到150版本 150版本基本信息

Organism dbSNP Build Genome Build Number of Submissions(ss#’s) Number of RefSNP Clusters (rs#’s) ( # validated) Number of (rs#’s) in gene Number of (ss#’s) with genotype Number of (ss#’s) with frequency
Homo sapiens 150 38.3 907,234,193 325,660,549 (107,926,145) 191,665,918 73,917,935 130,169,906

下载地址:ftp://ftp.ncbi.nlm.nih.gov/snp/

二、目录结构

点击:ftp://ftp.ncbi.nlm.nih.gov/snp/ 则进入snp网址。

dbSNP包含了许多目录,其中最有用的是:

organisms/
database/
specs/

相关详细信息见 ftp://ftp.ncbi.nih.gov/snp/00readme.txt

1.FTP的“specs/”目录包含重要的文件的格式,内容及其基本介绍。

2.FTP的“organisms/”目录包含了一列有SNP数据的生物体目录,其按通用名后接NCBI分类id号来组织的。(要知道,DBsnp不光包含人的数据哦,还有bacteria,tuna等物种的snp信息;人类物种ID是9606,可以看到variation位点信息有基于hg19和hg38的两种下载方式,如果还有其它需求,可以自己用基因组坐标转换工具。)

3.点击特定的生物体子目录即可访问其中的ftp报表文件,你还可以选择同一个物种的不同版本。比如你点击了human_9606目录,那么你会发现人类数据目录包含以下子目录:ASN1_bin/、ASN1_flat/、XML/、VCF/、chr_rpts/、gene_report/、Genome_report/、rs_fasta/、ss_fasta/、genotype_by_gene/、genotype/、haplotypes/、database/、misc/、Enterz/

  • ASN1_bin : ASN.1 二进制格式的RefSNP文档综述 (.bin)
  • ASN1_flat :从ASN.1 二进制格式而来的按染色体排序的RefSNP docsum(.flat)
  • XML: 提供refSNP簇的具体查询信息以及NCBI SNP交换格式的簇成员(.xml)
  • chr_rpts :包含特定染色体上的RefSNPs 的完整列表(.txt)
  • genotype :以基因型交换XML格式提供提交的SNPs的submitter和基因型信息(.xml)
  • genome_reports :包含生物体SNP密度分布的概要报告以及每个基因中的SNPs的概要报告(无后缀或.rpt或.log)
  • ss_fasta :包含FASTA格式的生物体的所有可用的submitted SNP(ss)序列数据(.fas)
  • rs_fasta :包含FASTA格式的人类所有可用的参考SNP (RS)序列数据(.fas)

chr_rpts 中的txt文件内容:

  1. RefSNP id (rs#)rs代号

  2. mapweight where 匹配个数

  • 1 = Unmapped
  • 2 = Mapped to single position in genome
  • 3 = Mapped to 2 positions on a single chromosome
  • 4 = Mapped to 3-10 positions in genome (possible paralog hits)
  • 5 = Mapped to >10 positions in genome.
  1. snp_type where snp类型

  2. Total number of chromosomes hit by this RefSNP during mapping 匹配到的染色体个数

  3. Total number of contigs hit by this RefSNP during mapping 匹配到的conting个数

  4. Total number of hits to genome by this RefSNP during mapping 匹配到基因组的个数

  5. Chromosome for this hit to genome 匹配到的染色体

  6. Contig accession for this hit to genome 匹配到conting 序号

  7. Position of RefSNP in contig coordinates 在conting中匹配到突变的位置

  8. Position of RefSNP in chromosome coordinates (used to order report)

在染色体中匹配到突变的位置

* x, a single number, indicates a feature at base position x
* x..y, denotes a feature that spans from x to y inclusive.
* x^y, denotes a feature that is inserted between bases x and y

11.Genes at this same position on the chromosome 匹配到的基因名字

12.Genotypes available in dbSNP for this RefSNP 基因型是否可知

* 1 = yes
* 0 = no

bed中包含各个染色体上的snp,如下:

  1. chrom: The name of the chromosome (e.g. chr1, chr2, etc.).

  2. chromStart: The Reference SNP (rs) start position on the chromosome.

Note: The first base in a chromosome is numbered 0.

  1. chromEnd: The rs end position on the chromosome.

Optional Fields:

  1. name: The dbSNP Reference SNP (rs) ID

  2. score: dbSNP does not assign a score value, so this field will always contain a 0 .

  3. strand: This field defines strand orientation as either + or -.

VCF

这个是dbSNP数据库的精髓文件,需要仔细理解,内容节选如下:

#CHROM POS ID REF ALT QUAL FILTER INFO 1 948136 rs267598747 G A . . RS=267598747;RSPOS=948136;dbSNPBuildID=137;SSR=0;SAO=3;VP=0x050060000305000002100120;GENEINFO=NOC2L:26155;WGT=1;VC=SNV;PM;REF;SYN;ASP;LSD;CLNALLE=1;CLNHGVS=NC_000001.11:g.948136G>A;CLNSRC=.;CLNORIGIN=2;CLNSRCID=.;CLNSIG=1;CLNDSDB=MedGen:SNOMED_CT;CLNDSDBID=C0025202:2092003;CLNDBN=Malignant_melanoma;CLNREVSTAT=no_assertion_provided;CLNACC=RCV000064926.2

它包含的内容:染色体,突变的位置,rs代号,突变过程,info。

其中info包含了突变是否为同义突变?突变实在coding 区还是内含子或UTR?也包含了clinvar数据库的临床意义信息,CLNSIG(0 - Uncertain significance, 1 - not provided, 2 - Benign, 3 - Likely benign, 4 - Likely pathogenic, 5 - Pathogenic, 6 - drug response, 7 - histocompatibility, 255 - other);CLNDSDB(Variant disease database name);CLNDBN(Variant disease name)还有更多解释,直接看第二章的VCF格式介绍即可。

三、查询

http://www.ncbi.nlm.nih.gov/SNP/ 是NCBI做好的一个网页版查询工具,因为下载一个 variation位点信息记录文件动辄就是十几个G,一般人也不会处理那个文件,不知道从里面应该如何提取需要的信息,这时候学习它的网页版查询工具也挺好的。

在UCSC里面也有对dbsnp数据库的介绍,主要是从数据库设计的角度来理解,里面详细介绍了每一列具体的意义,值得大家仔细学习。

但是如果真想从数据库语言的角度来理解,需要看它的数据库设计的schema了:很复杂:ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf

sql的代码也可以下载:

ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/

还根据gene来分genotype:ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/

四、命名

关于snp位点的命名其实并不统一,大家在文献中一般用的都是习惯或者说惯用名称。这里只介绍NCBI的rs号。NCBI里对所有提交的snp进行分类考证之后,都会给出一个rs号,也可称作参考snp,并给出snp的具体信息,包括前后序列,位置信息,分布频率等,应该说用这个rs号是比较容易确定搞明白的。 一般写法是这样: dbSNP后面跟featureID。featureID一般是rs/ss后跟7-8位数字, 比如: rs12345678或者dbSNP|rs12345678 。

最后值得一提的是,除了dbsnp对variation规定了ID号,还有几个其它偏门的ID号也可以来描述变异位点的。

NCBI的dbsnp,以rs和ss开头
illumina的kgp开头
ESP的以esp开头
kgp是illumina中华八芯片的

五、其他

有任何疑问可联系:snp-admin@ncbi.nlm.nih.gov

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn