如何下载生物数据（三）：GATK数据下载

2024-05-21 21:56:04

来源地址：https://blog.csdn.net/xxxie_/article/details/100111991

欢迎订阅WX众号：基因学苑，更多精彩内容等你发掘！

基因学苑Q群：32798724

当前做人相关的基因组分析，包括全基因组WGS，全外显子WES以及目标区域测序TRS，基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同，处理下载参考序列，还需要下载已有信息，例如各种人类基因组计划累积的变异信息，这些信息可以用于先验的学习集，提高变异检测的准确性。因此，如果想使用GATK软件，首先就需要下载GATK使用的数据集。

基因组版本选择

由于人的染色体存在多个数据中心，并且有多次更新，因此，当前有多个命名以及多个版本，搞不清这些版本和命名，有时候会产生很严重的后果。因为不同的命名之间序列的ID不同，比如1号染色体，有些是chr1，有些直接就是数字1，不同版本之间存在坐标这件的不同，因为很多注释数据库对染色体有版本要求，不同版本之间需要坐标转换之后才能使用。

UCSC命名最简单，就是hg加数字，比如hg18，hg19和hg38这些版本比较常用；

NCBI的命名更复杂一些，是GRCH开头，然后数字，36,37,38等。

而ENSEMBL命名就更复杂了，只给出版本比如52,59,61,80,81,82等。

这三种命名方式有一个对应关系。如图所示。

hg18 = GRCh36 = ENSEMBL release_52

hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75

hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82

这里面使用最多的就是hg19和hg38的版本，不同版本基因组之间主要有哪些差别呢，理论上来说越大版本基因组，序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致，基因组上坐标修改一个位置，与之相关联的所有内容要发生变化，例如这个坐标已经与dbSNP的rs号相对应了，这也就是为什么虽然现在已经有了hg38，但是hg19这个版本使用依然非常广泛，就是因为大量的注释信息都是基于hg19的版本来做的，如果要切换到hg38，所有的内容都需要改，工作量很大。此外，同一个版本还有很多子版本，例如37.1,37.2,37.3等。这种版本主要是基因组注释信息在更新，基因组序列没有发生变化。

GATK bundle

GATK在官网提供了一个resource bundle，里面包含了所需要的很多数据，如果使用gatk软件，最好把这些数据下载下来。

这些数据提供 FTP 和 Google Cloud bucket两种下载方式。但是因为你知道的原因，我们使用不了google，所以只能使用ftp的方式来进行下载。

https://software.broadinstitute.org/gatk/

https://software.broadinstitute.org/gatk/download/bundle

lftp数据下载

GATK官网推荐使用lftp工具进行访问ftp和下载数据，如果服务器中没有lftp命令，可以提前下载安装，最好使用管理员安装。

yum -y install lftp #Redhat 系列

apt -y install ftp #Debian系列

接下来直接在命令行中通过命令访问ftp服务器进行下载。这些数据都放置在broad的服务器上，没有镜像站点，离我们很远，并且网站限制并发链接，也就是如果全球有多人同时下载，你可能访问不上去。

首先lftp，后面跟用户名，然后at符号，ftp服务器地址。

lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/

这里密码是空的，我们直接敲回车即可。

这样就访问就来了。接下来可以使用cd ls等命令来查看数据。里面包含很多数据目录，你可以选择不同版本的人基因组数据，cd到b37的目录看一下。里面包含了非常多的内容，包括各种数据库，千人基因组的snp和indel文件，dbsnp，瓶中基因组计划的结果。外显子联盟的，Mills_and_1000G_gold_standard.indels，这个是比较准确的人indel数据，这些都可以用在gatk vqsr的机器学习中。此外还包括人基因组序列，各种建好的索引文件等。

1000G_omni2.5.b37.vcf.gz

1000G_omni2.5.b37.vcf.gz.md5

1000G_omni2.5.b37.vcf.idx.gz

1000G_omni2.5.b37.vcf.idx.gz.md5

1000G_phase1.indels.b37.vcf.gz

1000G_phase1.indels.b37.vcf.gz.md5

1000G_phase1.indels.b37.vcf.idx.gz

1000G_phase1.indels.b37.vcf.idx.gz.md5

1000G_phase1.snps.high_confidence.b37.vcf.gz

1000G_phase1.snps.high_confidence.b37.vcf.gz.md5

1000G_phase1.snps.high_confidence.b37.vcf.idx.gz

1000G_phase1.snps.high_confidence.b37.vcf.idx.gz.md5

1000G_phase3_v4_20130502.sites.vcf.gz

1000G_phase3_v4_20130502.sites.vcf.gz.tbi

Broad.human.exome.b37.interval_list.gz

Broad.human.exome.b37.interval_list.gz.md5

CEUTrio.HiSeq.WGS.b37.NA12878.bam

CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz

CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz.md5

CEUTrio.HiSeq.WGS.b37.NA12878.bam.md5

CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz

CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz.md5

CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz

CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz.md5

CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz

CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz.md5

CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz

CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz.md5

Mills_and_1000G_gold_standard.indels.b37.vcf.gz

Mills_and_1000G_gold_standard.indels.b37.vcf.gz.md5

Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz

Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz.md5

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz.md5

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz.md5

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz.md5

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz

NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz.md5

NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz

NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz.md5

NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz

NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz.md5

dbsnp_138.b37.excluding_sites_after_129.vcf.gz

dbsnp_138.b37.excluding_sites_after_129.vcf.gz.md5

dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz

dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz.md5

dbsnp_138.b37.vcf.gz

dbsnp_138.b37.vcf.gz.md5

dbsnp_138.b37.vcf.idx.gz

dbsnp_138.b37.vcf.idx.gz.md5

hapmap_3.3.b37.vcf.gz

hapmap_3.3.b37.vcf.gz.md5

hapmap_3.3.b37.vcf.idx.gz

hapmap_3.3.b37.vcf.idx.gz.md5

hapmap_3.3_b37_pop_stratified_af.vcf.gz

hapmap_3.3_b37_pop_stratified_af.vcf.gz.tbi

human_g1k_v37.dict.gz

human_g1k_v37.dict.gz.md5

human_g1k_v37.fasta.fai.gz

human_g1k_v37.fasta.fai.gz.md5

human_g1k_v37.fasta.gz

human_g1k_v37.fasta.gz.md5

human_g1k_v37_decoy.dict.gz

human_g1k_v37_decoy.dict.gz.md5

human_g1k_v37_decoy.fasta.fai.gz

human_g1k_v37_decoy.fasta.fai.gz.md5

human_g1k_v37_decoy.fasta.gz

human_g1k_v37_decoy.fasta.gz.md5

直接使用get命令，接要下载的文件，就可以下载数据了。

比如：get human_g1k_v37_decoy.fasta.gz.md5

也可以使用mget命令，添加通配符，下载同一类型的文件。

这里面我们要下载整个目录数据。可以使用mirror命令。

返回上层目录，直接mirror b37，就可以下载全部数据了。

mirror b37

因为数据比较多，也比较大，下载还是需要很长时间的。

Tips：一般发现下载国外数据，选择白天下载速度较快，可能由于时差的原因，西方人正在睡觉吧，我猜的，没验证过。

这里我们将GATK的hg19，hg38以及b37的数据已经保存在百度网盘，微信后台回复“gatk”即可得到下载链接。

---------- END ----------

把含有多样本的vcf文件拆分

参考:https://www.biostars.org/p/224702/ 非常多已经造好的轮子可以完成,包括bcftools,vcftools,还有大名鼎鼎的GATK,随便举例如下: module ...
明码标价之WES等DNA测序数据找变异

最近有粉丝在我们<生信技能树>公众号后台付费求助,想重新分析一下某肿瘤队列文献的数据,需要下载几个T的fq数据走比对流程,然后找SNV和CNV等变异. 因为他的课题是保密的,我这里不方便提 ...
Anaconda is a snake.

我以前的教程都不改环境变量我的软件通常是这样安装的: ## https://github.com/najoshi/sickle cd ~/biosoft mkdir sickle && ...
肿瘤全外显子测序数据分析流程大放送

这个一个肿瘤外显子项目的文章发表并且公布的公共数据,我这里给出全套分析流程代码.只需要你肯实践,就可以运行成功. PS:有些后起之秀自己运营公众号或者博客喜欢批评我们这些老人,一味的堆砌代码不给解释, ...
【直播】我的基因组24：用GATK对SAM格式的文件进行重排

GATK教程我以前写过(GATK使用注意事项:http://www.bio-info-trainee.com/838.html) 这个步骤分成2个小步骤: 首先用RealignerTargetCrea ...
4 比对到参考基因组输出bam文件

进到align目录对质量好的测序数据进行比对 1. 一个个比对,生成BAM文件 align目录 sample=SRR7696207 bwa mem -t 2 -R "@RG\tID:$sa ...
一步一步用Snakemake搭建gatk4生成正常样本的germline突变数据库的流程

echo "START" 大家好,我是熊猫. 事情是这样的,前些天我在朋友圈发了一张图片: Snakemake展现gatk4生成正常样本的germline突变数据库流程图这是使用 ...
最新最全的mutect2教程

GATK的Mutect2流程一直在变动,主要是GATK本身也更新频率有点高,所以基本上大家看到的教程很快就过时了,follow起来都是错误连连.现在这个教程的时间是:2020-09-22 (只能保证说 ...
GATK4的mutect2流程

往期GATK4教程目录: GATK4的gvcf流程你以为的可能不是你以为的新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧曾老湿最新私已:GATK4实战教程 GATK4的CNV流程-hg3 ...
2018年全国POI数据哪里下载？北京大学开放研究数据平台

2018年全国POI数据哪里下载？北京大学开放研究数据平台
常用免费DEM数据汇总（含下载使用方法）

本篇文章介绍几个免费的DEM,分辨率有1km.90m.30m.12.5m,不是说分辨率越高越好,这得看应用场景的每个数据还是分数据简介.网站链接.下载方法.使用方法4个方面说明一.全球海陆数据库1. ...
大数据神器Kylin驱动下载、使用方法及异常处理 | PBI实战技能

- 1 - 不久前,在文章<这几个大厂数据库驱动,赶紧收藏.下载!| PBI实战必备>里,给了SAP BW.IBM DB2.mysql odbc.Oracle以及Kylin ODBC的数据 ...
解读GEO数据存放规律及下载，一文就够

做生物信息学分析的朋友应该是对GEO数据库耳熟能详了,总会用到公共数据库的,而GEO数据库则是首选,起先只是为表达芯片数据准备的,后期纳入了各种NGS组学数据,文章里面会给出数据地址,GSE ID号, ...
30G的芯片数据还可以使用VPS下载

简介入门生物信息学我们首先需要有可分析数据,才能进行后续操作.但目前国内网络环境的限制,使得我们很难畅快地从各大数据库下载数据.今天就为大家推荐一种简单快捷的下载方式--使用VPS下载,再使用Fil ...
【福利】某电动汽车车身数据领取（免费下载）

汽车车身结构主要包括:车身壳体.车门.车窗.车前钣制件.车身内外装饰件和车身附件.座椅以及通风.暖气.冷气.空气调节装置等等 .车身有承载式和非承载式,通过所讲的车身大部分是指车身骨架,即不包括四门两 ...
附下载 l上海市发布《数据中心能耗在线监测技术规范（征求意见稿）》

上海市场监督管理局1月20日发布关于对上海市地方标准<数据中心能耗在线监测技术规范(征求意见稿)>公开征求意见的通知通知称,根据<地方标准管理办法>(国家市场监管总局第26号 ...
热点透视 | 2020年央视《新闻联播》数据报告——大数据里的高考热点【免费下载】

热点透视 | 2020年央视《新闻联播》数据报告——大数据里的高考热点【免费下载】
一文读尽：数据趋势、数据治理、数据架构、数据中台、云数据库、数据安全（附下载链接）

前言一数据趋势篇 ❖ 单模型 => 多模型 => 多模从最早的层次模型.网状模型,发展到关系模型.后者长期占据数据的模型的主导地位,直到今天仍然如此.关系模型所带来的数据表述方式结合 ...

如何下载生物数据（三）：GATK数据下载

相关推荐