lncRNA-seq数据分析之新lncRNA鉴定和注释视频课程众筹
前面我系统性的总结了:lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 ,还有LncRNA-seq的一般分析流程 ,里面提到了一个目前非常小众的分析方向,就是新lncRNA鉴定和注释,因为大部分人研究的物种的human或者mouse,已经被分析的很透彻了,encode计划等资源非常丰富,很少需要鉴定新的lncRNA。
Transcriptome Analysis Suggests the Roles of Long Intergenic Non-coding RNAs in the Growth Performance of Weaned Piglets

分析流程如下:

前面的hisat2+stringtie流程流程很简单
就是参考:猪狗的参考基因组构建索引,还有使用ebi数据库直接下载fastq测序数据 ,做好准备工作,然后使用conda安装一些软件,建立好目录
conda create -n lncRNA
conda activate lncRNA
conda install -y -c bioconda hisat2 stringtie samtools fastp gffcompare
# conda search gffcompare
mkdir 0.qc 1.raw_fq 2.clean_fq 3.hisat2_bams 4.stringtie_gtfs 5.lncRNA
流程基本上3个软件,衔接一些即可
conda activate lncRNA
index=/home/jmzeng/reference/genome/pig/pig_hisat2
gtf=/home/jmzeng/reference/genome/pig/Sus_scrofa.Sscrofa11.1.99.chr.gtf
fastp -i 1.raw_fq/${id}_1.fastq.gz \
-o 2.clean_fq/${id}_1.fastp.fq.gz \
-I 1.raw_fq/${id}_2.fastq.gz \
-O 2.clean_fq/${id}_2.fastp.fq.gz \
-l 36 -q 20 --compression=6 \
-R ${id} -h ${id}.html
fq1=2.clean_fq/${id}_1.fastp.fq.gz
fq2=2.clean_fq/${id}_2.fastp.fq.gz
hisat2 -p 4 -x $index -1 $fq1 -2 $fq2 | \
samtools sort -@ 4 -o 3.hisat2_bams/$sample.bam -
stringtie -p 4 -G $gtf \
-o 4.stringtie_gtfs/$sample.gtf \
-l $sample 3.hisat2_bams/$sample.bam
当然,你需要自己去搜索理解软件的参数啦。
后面的新lncRNA鉴定和注释还是蛮耗费时间的
而且不同物种的新lncRNA鉴定和注释细节还不一样,不同的gtf文件版本可以对比印证。
我们研发的步骤是:

完整课程思维导图在:https://mubu.com/doc/ISk-Ev1tg
课程录制需要一些反馈和动力,所以采取众筹模式,吸纳部分真正有兴趣的朋友进入微信群参与讨论哈。(毕竟新lncRNA鉴定和注释是一个小众方向,大部分朋友就是看个热闹)
