lncRNA组装流程的软件介绍本地化NR数据库|按物种拆分
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
NR数据库包含了所有物种分类的蛋白序列数据,目前NR数据库大约83G大小,由于注释数据运行时间和数据库大小几乎呈集合级增长,另外防止其他物种序列影响注释结果,因此在NR数据库建库时可以根据NCBI提供的物种分类号文件对NR数据库序列进行分类
具体提取方法如下:
step1:数据准备
因为数据文件有点大,所以建议使用 ascp 加速哦
# 下载NR数据库
ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/lncRNA/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nr.gz ./
# 下载taxdump.tar.gz
wget -c ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz
# 下载taxid的accession号
wget -c https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.FULL.gz
step2:taxonkit、csvtk安装
咱们的软件,统一使用conda管理即可:
# conda 安装
conda install taxonkit
conda install csvtk
step3 :序列提取
首先使用TaxonKit提取特定taxons下的所有taxid,人类是9606,细菌是2,病毒是10239;
以Homo sapiens例子,从NR蛋白数据库中提取Homo sapiens的蛋白质序列
# 获取人类taxid
taxonkit list --ids 9606 --indent "" > human.taxid.txt
# 构建一张表,第一列是taxid,后面7列跟着门纲目科属种的名称(可做可不做)
less human.taxid.txt | taxonkit lineage \
| taxonkit reformat -f "{k}\t{p}\t{c}\t{o}\t{f}\t{g}\t{s}" -F \
|cut -f 1,3- | sed '1i\Taxid\tKingdom\tPhylum\tClass\tOrder\tFamily\tGenu\tSpecies' > human.taxid_Ano.txt
然后使用csvtk在prot.accession2taxid.gz文件中提取plant.taxid所有的accession
# 通过taxid提取accession号
zcat prot.accession2taxid.FULL.gz \
|csvtk -t grep -f taxid -P ~/database/blastDB/test/human.taxid.txt \
|csvtk -t cut -f accession.version >human.taxid.acc.txt
# 构建NR库索引
# 方法 1:使用上面下载的nr库解压后makeblastdb构建数据库
makeblastdb -in ~/database/test/nr -dbtype prot -out nr
# 方法 2:ascp 下载
ascp -v -k 1 -T -l 200m -i ~/miniconda3/envs/lncRNA/etc/asperaweb_id_dsa.openssh anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/nr.*.tar.gz ./
# 使用blastdbcmd通过accession号提取蛋白质序列
blastdbcmd -db ~/database/test/nr \
-entry_batch ~/database/blastDB/test/human.taxid.acc.txt \
-out - | pigz -c > nr_human.fa.gz
step4:序列比对
# diamond makedb建库索引
nohup diamond makedb --in /home/data/lihe/database/blastDB/nr_human/nr_human.fa -d nr_human &
# diamond blastx 比对nr_human
nohup diamond blastx -e 1e-5 -d /home/data/lihe/database/blastDB/nr_human/diamond/nr_human \
-q ../step4/filter4_by_pfam_exon.fa -f 6 -o ./dna_matches.txt &
参考
https://www.jianshu.com/p/d28f38db248d
https://bioinf.shenwei.me/taxonkit/tutorial/
https://www.jianshu.com/p/1d6edfcb4110
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班:
