miRNAseq数据分析这么多年了它的流程也没有固定

2024-08-01 05:21:50

那个时候举例使用的是bowtie2软件比对miRNA的reads到miRBase里面的miRNA序列文件，以及hg38参考基因组，两个策略。后来也看了看很多公司报告，发现大多集中于下游分析，就是拿到了miRNA表达矩阵后的，包括差异分析，靶基因等等。如下所示：

我最近在生信技能树分享了几个miRNA的靶向基因的查询工具，分别是：

但是在回看自己五年前的一篇文章学会miRNA-seq分析，发现反而是上游分析并不具备固定的流程，如果上游分析都有疑问，意味着拿到的miRNA表达矩阵本来是有问题的，后续的下游分析也就无从谈起了。

比如发表在Genome Biol. 2014; 的文章Evidence for the biogenesis of more than 1,000 novel human microRNAs的流程就值得介绍：

测序数据质控环节：

Sequencing was performed on a HiSeq2000 instrument running TruSeq version 3 chemistry for 50 cycles.
Base calling and quality score calculation was performed from raw intensities using Illumina’s pipeline version 1.8.1.
The called reads were trimmed with the command line: fastx_trimmer –f 1 –l 36 and low-quality reads discarded with fastx_artifacts_filter using the options –q 10.
Adapters were clipped using the AdRec.jar program from the seqBuster suite with the following options: java -jar AdRec.jar 1 8 0.3.

如果要发现新的miRNA，需要比对到参考基因组。

使用bowtie –f –v 0 –a –m 5 --strata --best; 比对miRNA的FASTA文件到人类参考基因组
删除属于annotations of tRNA or rRNA (RepeatMasker hg19)和 known miRNA hairpins (miRBase version 19)的已知miRNA

值得注意的是，small interfering RNA (siRNA), Piwi interacting RNA (piRNA) and microRNAs (miRNAs) 需要区分开来哦，我们现在说的是miRNAs相关的测序数据分析。

但是绝大部分人在处理miRNA测序数据的时候，并不会有那个时间来仔细琢磨这个数据处理流程。所以，如果你仔细看流程，会发现千奇百怪的数据处理。

有tophat2比对

在文章 Distinct methylation levels of mature microRNAs in gastrointestinal cancers 可以看到：

但是现在的你，可不能照抄哦，五年前我在生信菜鸟团博客写过一个《RNA-seq流程需要进化啦》，上面分享过：

Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍，hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍，但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性，且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤，直接进行kmer计数来做QC，特异性及准确性都还行，但是速度提高了25倍
kallisto同样不需要比对，速度比sailfish还要提高5倍！！！

bowtie比对第1篇文章

好奇怪，一直有人坚守bowtie，而不是bowtie2，我猜测是不是因为这个bowtie有一个特殊的功能，是bowtie2所不具备的。

A Panel of MicroRNAs as Diagnostic Biomarkers for the Identification of Prostate Cancer

描述如下：

bowtie比对第2篇文章

Expanding the repertoire of miRNAs and miRNA-offset RNAs expressed in multiple myeloma by small RNA deep sequencing

bowtie比对第3篇文章

hsa-miR-9-3p and hsa-miR-9-5p as Post-Transcriptional Modulators of DNA Topoisomerase IIa in Human Leukemia K562 Cells with Acquired Resistance to Etoposide

使用BWA软件的

见发表在 Nucleic Acids Res. 2016 Jan 8; 的文章 Large-scale profiling of microRNAs for The Cancer Genome Atlas：

Our adapter-trimming algorithm identified as long an adapter sequence as possible, allowing a number of mismatches that depended on the adapter length found.
Because the shortest mature miRNA in miRBase v16 is 15 bp, we discarded any trimmed read that was shorter than 15 bp.
We used BWA-MEM with parameters samse -n 10 to align the remaining reads to a reference genome, which, for most TCGA cancers, was GRCh37

总结一下，目前是bowtie软件来比对miRNA的reads居多。

如果大家有趁手的miRNA上游分析流程

欢迎共享哦，比如大家可以看到的tcga数据库的mRNA Analysis Pipeline ，详细代码：

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

太复杂的流程就算了，比如上面提到的发表在 Nucleic Acids Res. 2016 Jan 8; 的文章的流程：

https://github.com/bcgsc/mirna

普通人一辈子也就是处理两三次miRNA数据，并不是TCGA计划那样专业的团队，所以我们仅仅是关心测序reads的清洗问题，接头去除，以及比对的策略。定量之后的表达矩阵分析，反而是很简单的。

欢迎分享，发邮件给我，到 jmzeng1314@163.com

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI，帮助他们多一点数据认知，让科研更上一个台阶：

生信爆款入门-全球听（买一得五）（第4期），你的生物信息学入门课
数据挖掘第2期（两天变三周，实力加量），医学生/临床医师首选技能提高课
生信技能树的2019年终总结，你的生物信息学成长宝藏
2020学习主旋律，B站74小时免费教学视频为你领路，还等什么，看啊！！！

推荐阅读

赞 (0)

世上至强植物 phasiRNA 数据分析流程！

写在前面没错,标题党就是我! 这几天在忙课题的一些东西,其中涉及到一些 PhasiRNA 数据分析.讨论了一下,发现了一些陈年老 bugs.主要原因在于需求变了,所以代码逻辑也事实上需要更新. 更新 ...
Ⅰ型糖尿病发展新机制：淋巴细胞外泌体miRNAs促进胰腺β细胞死亡|Cell Metabolism

Ⅰ型糖尿病(T1D)是一种自身免疫疾病,其特征在于免疫细胞对胰岛的浸润和选择性消除分泌胰岛素的β细胞.研究人员已经在非肥胖糖尿病(NOD)小鼠(一种众所周知的T1D模型)中观察到免疫细胞的浸润,而且也 ...
小RNA测序是什么？

小RNA是指一类高度保守的长度为18-32nt的RNA分子,主要包括miRNA.siRNA.snoRNA和piRNA等,是生命活动重要的调控因子,在基因表达调控.生物个体发育.代谢及疾病的发生等生理过 ...
我们能否和抑郁焦虑彻底说再见？一文盘点心境障碍中的神经可塑性密匙miRNA

作者:刘芳编审:王新凯排版:王落尘 2019 年世卫组织数据显示,全球有超过 3.5 亿抑郁症患者,近十年来增速约 18%.同年,我国泛抑郁人数超过 9500 万人,每年造成经济损失 78 亿美元 ...
miRNA测序技术原理

miRNA测序背景简介小RNA是生物体内一类具有重要调控功能的非编码短小RNA的总称.大量研究已经证实,小RNA几乎参与调控了动植物所有的生命过程,包括细胞增殖,分化,凋亡等,并且与人类疾病的发生发 ...
IGV-sRNA - 植物小RNA测序数据专用基因组浏览器

如本期推文,我们开始对外共享三年多以来的部分工作成果,即 sRNAanno - 一个植物小RNA注释数据库 ( www.plantsRNAs.org ).在这个数据库中,用户可以但不仅限于: 下载1 ...
国内外泌体领域进展（2017年04月）

2016年7月 8月 9月 10 11月 12月 2017年01月 02月四月份国内外泌体方面的新出的外泌体和细胞外膜泡领域研究论文不完全统计有31篇.主要内容包括: ...
构建miRNA-seq数据分析环境

microRNAs靶基因数据库哪家强使用miRNAtap数据源提取miRNA的预测靶基因结果对miRNA进行go和kegg等功能数据库数据库注释很多粉丝留言想听miRNA-seq数据分析流程,主 ...
16S从实验到数据分析最全流程

本文主要介绍了16S的实验.建库.数据分析等过程,也是我自己近期的一个小总结,初学之时从很多前辈的无私分享中受益良多,在此也和大家分享一些我的见解,当然我也只是一个初学者,还有很多不完备之处,希望能与 ...
青年生命科学论坛报告：扩增子和宏基因组数据分析与可视化流程—刘永鑫(北京210606)

感谢中科院动物所青促会组织的第三届青年生命科学论坛的邀请,参加本次大会,并和微生物所王军老师共同负责了<微生物组>专题的召集工作.感谢11位微生物组专题报告人的辛苦准备和分享. 现将本次1 ...
终于有人讲清楚数据分析全流程了！

从最初的做数据管理工作,到逐渐负责指标体系梳理.预警机制搭建.BI系统建设.商业分析等工作,我越来越认同--"要做什么"是比"要怎么做"更加重要的问题.一个数据 ...
一张图解读清楚：最完整的数据分析流程

典型的大数据分析包含以下几个步骤: 一.明确分析目的和思路明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集.处理及分析提供清晰的指引方向. 目的是整个分析流 ...
20年聚焦质谱数据分析，首创基于质谱的新抗原从头测序流程，服务已落地中国公司

从基因测序到蛋白测序,从密码到产物,是近几十年生命科学破解书写生命奥秘的工作核心.在攻克以癌症为首的各类疾病的终极目标之下,高通量的疾病标志物筛选与个性化精准医疗是生物药研发与应用的一体两面,其中的核 ...
数据分析的理念、流程、方法、工具（上）

一.数据的价值 1.数据驱动企业运营从电商平台的「猜你喜欢」到音乐平台的「心动模式」,大数据已经渗透到了我们生活的每一个场景.不论是互联网行业,还是零售业.制造业等,各行各业都在依托互联网大数据(数 ...
数据分析的理念、流程、方法、工具（下）

四.用户分群 1.用户分群用户分群是精细化运营的基础要求,也是数据分析的最基础方式.对用户进行分群,能帮助我们了解每个细分群体用户的变化情况,进而了解用户的整体现状及发展趋势.同时,由于运营资源本身 ...
【直播】我的基因组 43：简单粗糙的WGS数据分析流程

前面我们扯到bam文件的各种操作,vcf文件的各种操作,基础知识不牢固的同学可能已经云里雾里了.这次我们来讲一个简单的.就是拿到了fastq的测序数据,如何把全基因组分析给跑一遍.(不谈细节!) 首先 ...