4 比对到参考基因组输出bam文件

进到align目录
对质量好的测序数据进行比对

1. 一个个比对,生成BAM文件

align目录

sample=SRR7696207
bwa mem -t 2 -R "@RG\tID:$sample\tSM:$sample\tLB:WGS\tPL:Illumina" ../hg38/bwa_index/gatk_hg38 ../clean/SRR7696207_1_val_1.fq.gz ../clean/SRR7696207_2_val_2.fq.gz |samtools sort -@ 2 -o SRR7696207.bam -

不用-R参数也可以执行,但后面gatk的时候会报错

[M::bwa_idx_load_from_disk] read 0 ALT contigs
[M::process] read 143150 sequences (20000163 bp)...
[M::process] read 142658 sequences (20000278 bp)...
[M::mem_pestat] # candidate unique pairs for (FF, FR, RF, RR): (1, 61056, 1, 1)
[M::mem_pestat] skip orientation FF as there are not enough pairs
[M::mem_pestat] analyzing insert size distribution for orientation FR...
[M::mem_pestat] (25, 50, 75) percentile: (135, 165, 207)
[M::mem_pestat] low and high boundaries for computing mean and std.dev: (1, 351)
[M::mem_pestat] mean and std.dev: (174.05, 52.67)
......

2或者循环批量比对

#clean目录
ls *1.fastq.gz > 1
ls *2.fastq.gz > 2
paste 1 2 > config
vim config

增加第一列文件名,记得不能空格,要Tab分隔
如果样本量很多就用脚本,具体见大样本分析那篇
align目录下

INDEX=../hg38/bwa_index/gatk_hg38
cat ../clean/config|while read id
do
arr=($id)
sample=${arr[0]}
fq1=${arr[1]}
fq2=${arr[2]}
bwa mem -t 5 -R "@RG\tID:$sample\tSM:$sample\tLB:WGS\tPL:Illumina" $INDEX ../clean/$fq1 ../clean/$fq2 |samtools sort  -@ 2 -o $sample.bam -
done &
[M::bwa_idx_load_from_disk] read 0 ALT contigs
[M::process] read 142876 sequences (20000122 bp)...
[M::process] read 142628 sequences (20000141 bp)...
[M::mem_pestat] # candidate unique pairs for (FF, FR, RF, RR): (0, 61992, 1, 0)
[M::mem_pestat] skip orientation FF as there are not enough pairs
[M::mem_pestat] analyzing insert size distribution for orientation FR...
[M::mem_pestat] (25, 50, 75) percentile: (137, 174, 219)
[M::mem_pestat] low and high boundaries for computing mean and std.dev: (1, 383)
[M::mem_pestat] mean and std.dev: (181.21, 59.08)
[M::mem_pestat] low and high boundaries for proper pairs: (1, 465)
[M::mem_pestat] skip orientation RF as there are not enough pairs
[M::mem_pestat] skip orientation RR as there are not enough pairs
[M::mem_process_seqs] Processed 142876 reads in 24.094 CPU sec, 11.833 real sec

3 查看bam文件

$ samtools view -H SRR8517853.bam |grep -v "SQ"
@HD     VN:1.6  SO:coordinate
@RG     ID:SRR8517853/tSM:SRR8517853    LB:WGS  PL:Illumina
@PG     ID:bwa  PN:bwa  VN:0.7.17-r1188 CL:bwa mem -t 2 -R @RG\tID:SRR8517853/tSM:SRR8517853\tLB:WGS\tPL:Illumina ../hg38/bwa_index/gatk_hg38 ../clean/SRR8517853_1_val_1.fq.gz ../clean/SRR8517853_2_val_2.fq.gz
(0)

相关推荐

  • featureCounts和DEXseq做基于外显子定量的可变剪切

    rMATS这款差异可变剪切分析软件的使用体验 用LeafCutter探索转录组数据的可变剪切 用Expedition来分析单细胞转录组数据的可变剪切 使用SGSeq探索可变剪切 用DEXSeq分析可变 ...

  • NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正

    NGS数据分析实践:06. 数据预处理 - 序列比对+PCR重复标记+Indel区域重比对+碱基质量重校正 目录 1. 序列比对 1.1 参考基因组建索引 1.2 序列比对 2. 排序 3. PCR重 ...

  • LncRNA鉴定上游分析

    前面我们介绍了一系列的LncRNA鉴定相关文献的案例精选: 4个发育时间点的总共12个鸡转录组测序样本的长非编码RNA的鉴定 59匹马的8个组织的长非编码RNA的鉴定 9个组织的37个样本的大豆的长非 ...

  • ngs组学数据分析上下游分析都可以基于R语言吗?

    前些日子我们<生信技能树>的工程师做了一个ATAC-seq的项目,给客户汇报结果的时候,照例提供了全套代码.不过这次是从fq文件开始,所以大量代码都是在Linux平台的命令行而已,虽然给了 ...

  • 比对软件-Bowtie2

    bowtie2 语法很重要!!!! Usage: bowtie2 [options]* -x <index> {-1 <m1> -2 <m2> | -U <r ...

  • 明码标价之普通转录组上游分析

    最近有粉丝在我们<生信技能树>公众号后台付费求助,想重新分析一下他自己领域的一个文章的转录组测序数据.因为那个文章并没有提供表达量矩阵,不过万幸的是人家上传了原始测序数据. 因为他的课题是 ...

  • 明码标价之WES等DNA测序数据找变异

    最近有粉丝在我们<生信技能树>公众号后台付费求助,想重新分析一下某肿瘤队列文献的数据,需要下载几个T的fq数据走比对流程,然后找SNV和CNV等变异. 因为他的课题是保密的,我这里不方便提 ...

  • 去rRNA可以解决GC含量双峰的右峰

    前些天我在生信技能树提出来了一个转录组数据分析的疑难杂症:RNA-seq的fastq文件里面为什么有gc含量的双峰,就是fastq测序数据质量控制的时候发现了GC含量的双峰,然后我简单分析了那些高重复 ...

  • 从fasta序列里面模拟测序的reads走SNP-calling流程

    很简单的一个shell脚本,从UCSC里面单独下载X,Y染色体的fasta序列,写脚本从Y染色体序列里面模拟双端测序的fastqa文件,然后用bwa软件比对到X染色体,作为参考基因组. 全部代码如下: ...

  • 【直播】我的基因组 43:简单粗糙的WGS数据分析流程

    前面我们扯到bam文件的各种操作,vcf文件的各种操作,基础知识不牢固的同学可能已经云里雾里了.这次我们来讲一个简单的.就是拿到了fastq的测序数据,如何把全基因组分析给跑一遍.(不谈细节!) 首先 ...

  • 【直播】我的基因组70:比对文件并不能完美的还原出测序文件

    前面我们说到过可以用软件或者自己写脚本从已经比对到参考基因组的sam/bam格式文件提取出原始的测序fastq文件. 但是我在IGV里面检查bam文件的时候发现了一些难以理解的现象,所以趁这个机会把它 ...

  • 【直播】我的基因组52:X和Y染色体的同源区域探索

    很久以前,我其实就遇到过通过NGS测序数据来判定性别的难题(搜索我博客即可查看详情),本次探究自己的基因组得到的统计结果与常识不符,所以我可以肯定是我们的常识太浅显了. [直播]我的基因组48:我可能 ...