【4.3】dbGap

https://dbgap.ncbi.nlm.nih.gov/aa/wga.cgi?page=login dbGaP(The Database of Genotypes and Phenotypes)是NCBI用于归档、精选和发布由调查基因型和表型间相互作用的研究所产生的信息的数据仓库。dbGaP中的信息是以层次结构组织的,包含登记的主体,表型(作为变量和数据集),各种分子实验数据(SNP和表达阵列数据,序列和表观基因组标记),分析和记录。

但是,大部分数据需要【申请使用权限】,审核通过才可以在【声明的指定范围内】使用。

https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/study.cgi?study_id=phs000452.v3.p1

该库的基本信息:

https://www.ncbi.nlm.nih.gov/projects/gap/cgi-bin/molecular.cgi?study_id=phs000452.v3.p1&phv=167374&phd=&pha=&pht=2592&phvf=&phdf=&phaf=&phtf=&dssp=1&consent=&temp=1

数据样品的信息:

https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=phs000452&o=acc_s%3Aa

三、我得操作

prefetch --ngc prj_****.ngc --cart cart_prj13207_20231****.krt  --order kart
  • –ngc参数,下载时给出key。到对应的批准的数据对应的project的get dbGap repository key,下载得到.ngc格式的文件。
  • –cart 什么是cart文件或SRA accession?数据块cart文件中提供了dbgap的非SRA和SRA数据文件块; 单个SRA,当得到单个的SRR accession时可以下载单个的SRA run

该链接可以查看单个SRA的信息: https://www.ncbi.nlm.nih.gov/sra/SRR10801641

四、报错

报错1

Current preference is set to retrieve SRA Normalized Format files with full base quality scores.
2022-01-14T08:35:16 prefetch.2.11.2: 1) Downloading 'SRR804684'...

解决办法:

加入参数: –order kart

[sam@c01 aNEO_data]$ prefetch --ngc prj_****.ngc --cart cart_prj13207_20231****.krt  --order kart

Downloading kart file 'cart_prj.krt'
2023-11-07T02:19:50 prefetch.3.0.2: Current preference is set to retrieve SRA Normalized Format files with full base quality scores.
2023-11-07T02:19:51 prefetch.3.0.2: 1) Downloading 'SRR10801640'...
2023-11-07T02:19:51 prefetch.3.0.2: SRA Normalized Format file is being retrieved, if this is different from your preference, it may be due to current file availability.
2023-11-07T02:19:51 prefetch.3.0.2:  Downloading via HTTPS.

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn