lncRNA组装流程的软件介绍本地化NR数据库|按物种拆分

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

NR数据库包含了所有物种分类的蛋白序列数据,目前NR数据库大约83G大小,由于注释数据运行时间和数据库大小几乎呈集合级增长,另外防止其他物种序列影响注释结果,因此在NR数据库建库时可以根据NCBI提供的物种分类号文件对NR数据库序列进行分类

具体提取方法如下:

step1:数据准备

因为数据文件有点大,所以建议使用 ascp 加速哦

# 下载NR数据库
ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/lncRNA/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./

# 下载taxdump.tar.gz
wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz

# 下载taxid的accession号
wget -c https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.FULL.gz

step2:taxonkit、csvtk安装

咱们的软件,统一使用conda管理即可:

# conda 安装
conda install taxonkit
conda install csvtk

step3 :序列提取

首先使用TaxonKit提取特定taxons下的所有taxid,人类是9606,细菌是2,病毒是10239;

以Homo sapiens例子,从NR蛋白数据库中提取Homo sapiens的蛋白质序列

# 获取人类taxid
taxonkit list --ids 9606 --indent "" > human.taxid.txt

# 构建一张表,第一列是taxid,后面7列跟着门纲目科属种的名称(可做可不做)
less human.taxid.txt | taxonkit lineage \
| taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F  \
|cut -f 1,3- | sed '1i\Taxid\tKingdom\tPhylum\tClass\tOrder\tFamily\tGenu\tSpecies' > human.taxid_Ano.txt

然后使用csvtk在prot.accession2taxid.gz文件中提取plant.taxid所有的accession


# 通过taxid提取accession号
zcat prot.accession2taxid.FULL.gz  \
|csvtk -t grep -f taxid -P ~/database/blastDB/test/human.taxid.txt  \
|csvtk -t cut -f accession.version >human.taxid.acc.txt

# 构建NR库索引
# 方法 1:使用上面下载的nr库解压后makeblastdb构建数据库
makeblastdb -in  ~/database/test/nr -dbtype prot -out nr
# 方法 2:ascp 下载
ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/lncRNA/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/nr.*.tar.gz  ./

# 使用blastdbcmd通过accession号提取蛋白质序列
blastdbcmd -db ~/database/test/nr \
-entry_batch ~/database/blastDB/test/human.taxid.acc.txt \
-out - | pigz -c > nr_human.fa.gz 

step4:序列比对

# diamond makedb建库索引
nohup diamond makedb --in /home/data/lihe/database/blastDB/nr_human/nr_human.fa -d nr_human  &

# diamond blastx 比对nr_human
nohup diamond blastx -e 1e-5 -d /home/data/lihe/database/blastDB/nr_human/diamond/nr_human \
-q ../step4/filter4_by_pfam_exon.fa -f 6 -o ./dna_matches.txt &

参考

https://www.jianshu.com/p/d28f38db248d

https://bioinf.shenwei.me/taxonkit/tutorial/

https://www.jianshu.com/p/1d6edfcb4110

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • 综述 | 斯坦福大学:大脑发育和疾病中不同的lncRNA机制

    编译:不二,编辑:夏甘草.江舜尧. 原创微文,欢迎转发转载. 导读 长非编码RNA(lncRNA)是一类广泛存在的基因.最近在哺乳动物大脑中的研究揭示了一些新的机制.lncRNA基因座通常位于发育转录 ...

  • TaxonKit:小巧、高效、实用的NCBI分类学数据命令行工具

    TaxonKit: 小巧.高效.实用的NCBI分类学数据命令行工具集 宏基因组按:NCBI物种分类注释信息格式复杂,存在层级不整齐.缺失.名称变动等问题,在使用中存在一定困难.最近发现了一款分类信息查 ...

  • lncRNome | long noncoding RNA Knowledgebase

    About lncRNome lncRNome is a comprehensive searchable biologically oriented knowledgebase for long n ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...