如何在四分钟内完成一篇SCI文章的全部数据分析 / 开普饭

首先为熊的写作协作小组点赞，吸引到了远在澳大利亚的优秀小伙伴加入，下面关于kallisto软件作者的博文翻译由MING主导，我虽然不用kallisto，但是salmon我却在多种场合推荐，的确是非常方便的转录组数据分析工具，以下是译文：

三年前，当我和共同作者（Páll Melsted, Nicolas Bray, Harold Pimentel）在arXiv上发表了“kallisto文章”（后来Bray等人于2016年发表了“近似最优概率的RNA-seq量化”一文）时，我们称kallisto在不影响测序分析准确性的情况下，通过比当时其他最先进的量化方法快两个数量级而去除了RNA-seq分析的主要计算瓶颈。

使用kallisto，以前需要数天的计算可以在几分钟内准确执行。

尽管分析的速度提升显著，但结果的相关性立即受到质疑。

评论家指出，实验、建库和测序需要几个月，而不是若干年，那么kallisto的分析只能节省数天，且kallisto分析速度提升后结果的相关性并不确定，所以对kallisto的速度提升持谨慎态度。

我们对此做出的反驳是，kallisto不仅可用于单个数据集的快速分析，还可完成以前不能达到的计算规模的分析。

为了具体说明我们的观点，在随后的文章中（Pimentel等人于2016年发布的 “The Lair: a resource for exploratory analysis of published RNA- seq data”[https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-1357-2] ），我们描述了利用kallisto的快速性和准确性完成RNA-seq数据的半自动化分析流程，并且描绘了“整体分析短读长（SRA数据库，short read archive）数据”的愿景，从而实现“通过使用同一工具处理不同数据集的研究结果的比较”。

实现这一愿景的一个主要挑战是，虽然kallisto可以快速地低成本处理所有短读长的RNA-seq数据（如，在我们发表kallisto后不久，Vivian等人于2017年的研究结果表明，kallisto将每个样本的分析成本从1.30美元降至了0.19美元，而Tatlow和Piccolo在2016年的研究则显示每个样本的分析成本仅为0.09美元），但实验分析不仅限于量化分析。

在Pimentel等人于2016年发表的文章中，我们争论如何处理实验元数据（随后整篇由 Bernstein 等人于 2017 年发表的文章[https://academic.oup.com/bioinformatics/article/33/18/2914/3848915] 都是关注这个问题），如何使用户能够动态测试不同的研究假说，如何将研究结果与现有数据库和资源进行链接。

结果，Pimentel等人在2016年发表的文章更多的是对原理而非完整资源的验证；最终我们只能完成对几十个数据集的分析。

现在，西奈山伊坎医学院的Avi Ma’ayan小组已经克服了RNA-seq短读长自动化分析项目中遇到的诸多挑战，并发布了一款名为BioJupies[https://amp.pharm.mssm.edu/biojupies/] 的工具（Torre et al. 2018[https://www.cell.com/cell-systems/fulltext/S2405-4712(18)30432-0] ）。

为了评估BioJupies，我对照”Cuffdiff2”（Trapnell et al. 2013[https://www.nature.com/articles/nbt.2450] ）文章中的数据分析形式进行了阳性对照分析（数据存档为GSE37704[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE37704] ）。

这是用于初步测试Pimentel等人于2016年发表文章的方法的数据集，也是Sleuth[https://pachterlab.github.io/sleuth_walkthroughs/trapnell/analysis.html] 工具用到的数据集。鉴于我对此数据集的熟悉，用它对BioJupies进行测试将是一个好的参考。

简而言之，Trapnell和Hendrickson等人于2013年对经由siRNA敲减HOXA1（一种发育转录因子）处理的肺成纤维细胞进行了差异分析。

使用BioJupies分析数据集就像在Biojupies 搜索框[https://amp.pharm.mssm.edu/biojupies/analyze/search?q=GSE37704] 中键入Gene Expression Omnibus（GEO）号一样简单。

点击“analyze”，点击几次“+”以添加所有可以生成的图，点击“continue”后会打开一个询问样本信息的窗口；HOXA1敲减样本选择“Perturbation”，未靶向特定基因的乱序siRNA处理的样本选择“Control”，样本设置如下图：

然后点击“generate notebook”……

之后BioJupies会以笔记形式展示了对数据的完整分析结果（Trapnell et al. 2013 | BioJupies[https://amp.pharm.mssm.edu/biojupies/notebook/0zo2FL7TT] ）。

Trapnell等人的大部分分析结果很快地展示在生成的notebook[https://amp.pharm.mssm.edu/biojupies/notebook/fOFEINIwr] 中。

例如：

下图是Trapnell等人发表的图5a结果，是敲减后的基因组富集分析（GSEA，Gene Set Enrichment Analysis）结果。

BioJupies展示的信号通路富集分析结果：

当然BioJupies还展示了许多其他信息和分析结果，从PCA主成分分析结果到L1000 连通图[https://www.broadinstitute.org/connectivity-map-cmap] 分析结果（expression signatures from a large database of over 20,000 perturbations applied to various cell lines that match the signatures in the dataset）。

BioJupies的一个强大应用是ARCHS4共表达数据的呈现。ARCHS4是kallisto计算的完整表达数据库，也是BioJupies的主要数据库。其特征之一是共表达基因的列表（通过整个短读长的相关性确定）。这些基因显示在BioJupies，使得实验结果可以展示在“全局”转录组关联背景中。

相比于Trapnell等人2013年的文章是对数据集的重分析，BioJupies在分析尚未发布的数据集时，其分析性能得到很好的体现。

我检查了GEO数据库，发现了GSE60538[https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60538] 系列数据似乎是来自发表文章中的子数据集。该数据来自一项研究，旨在通过两次单敲除和一次双敲除实验研究Sox5和Sox6在小鼠心脏中的作用。该研究源于2014年（与其包含的单端50bp读长一致），但最近更新了。研究项目中共有8例样本，其中含4例对照和4例双敲除的处理样本（单敲除样本尚不可用）。

我找不到相关文章，也找不到与GEO相关联的数据，但文章的摘要已经上传到网站。正如上文处理Trapnell等人在2013年发布的数据集那样，我在BioJupies网站上加入了数据检索号……

4分钟后：

GSE60538分析的摘要指出：“我们对DKO小鼠和对照小鼠的心室进行RNA深度测序以找出潜在Sox5/6作用的靶基因，并发现编码钙处理和阳离子转运蛋白调控因子的基因表达改变”。

确实，BioJupies验证了这一结果（详见Beetz et al. GSE60538 | BioJupies[https://amp.pharm.mssm.edu/biojupies/notebook/91qpAF2D5] ）。

当然，除此之外还有更多的分析。除了基本的质量控制和数据集统计，BioJupies页面还包括主成分分析，显示决定样本间相似性的“clustergrammer”，差异基因表达（关联MA图和火山图），GO富集分析，信号通路富集分析，转录因子富集分析，激酶富集分析，microRNA富集分析和L1000分析。某种意义而言，通过BioJupies，用户可以在四分钟内通过网站以文字形式完成分析结果的展示。

Ma’ayan实验室已经使用BioJupies一段时间。该服务由若干工具，分析流程和该实验室以前发布的资源组成，包括：

· Elysium: RNA-seq的云端比对

· Enrichr: 交互式和协作式HTML5基因列表富集分析工具

· KEA: 激酶富集分析

· LINCS Canvas Browser: 交互式网页app，用于查询、浏览和查找LINCS L1000基因表达signatures

· 大量挖掘人和小鼠研究所发布的公共RNA-seq数据

使用BioJupies，这些工具不仅仅是各部分的总和。虽然BioJupies令人印象深刻，但并不完整。

它不包含异构分析；例如Trapnell等人于2013年发表的文章认为，关键点在于BioJupies对于RNA-seq的转录水平分析能提供多少信息。

但我认为将来BioJupies会包括异构分析的功能。异构量化法由kallisto提供，并且已经可以通过ARCHS4下载。尽管目前BioJupies依赖的一些数据库在其他模型生物中不完整，如果BioJupies可以扩展到人类和小鼠以外的其他物种，那会很棒。甚至可以为非模型生物创建BioJupies。

我希望作者已经考虑过这些想法。我对BioJupies还有一些其他问题：如BioJupies笔记应该引用用于生成结果的所有程序和数据集，而且虽然它有一个自动生成的方法部分，但它尚不完整，应该包括对程序的实际调用，以便其完全重现。再者，“建库大小”不是一个样本的reads数，测序的reads数对应“测序深度”。所有上述提及的问题可以轻松解决。

总之，BioJupies为RNA-seq分析实现了巨大突破。它利用对所有（人类和小鼠）公开发布的数据实现了RNA-seq的快速和详尽的全面分析，这超越了以前的可能性，更多结果待发现。

■ ■ ■

如何在四分钟内完成一篇SCI文章的全部数据分析

相关推荐