使用MA Anderson御用软件SpliceSeq对TCGA数据库的RNA-seq找可变剪切
MA Anderson御用软件SpliceSeq已经是发表于2012的文章了:《SpliceSeq: a resource for analysis and visualization of RNA-Seq data on alternative splicing and its functional impacts》
实际上这些年针对RNA-seq找可变剪切的工具软件发展迅速,发表在December 2019的综述:《Systematic evaluation of differential splicing tools for RNA-seq studies》
exon-based (DEXSeq, edgeR, JunctionSeq, limma), isoform-based (cuffdiff2, DiffSplice) event-based methods (dSpliceType, MAJIQ, rMATS, SUPPA).
SpliceSeq产生的可变剪切数据库
其实MA anderson已经使用御用软件SpliceSeq对TCGA数据库的全部的RNA-seq找可变剪切,并且把结果存放在网页工具,供所有人使用:https://bioinformatics.mdanderson.org/TCGASpliceSeq/
你可以很方便的在如何癌症里面查看你感兴趣的基因是否出现在TCGA数据库里面有可变剪切:

而且TCGA数据库的全部癌症的SpliceSeq软件结果数据都是可以下载的,所以催生了33*5篇数据挖掘灌水文章。
当然了,现在也有联合SpliceSeq软件结果与甲基化等其它数据结合起来灌水比如:https://bmcmedgenomics.biomedcentral.com/articles/10.1186/s12920-019-0654-9
下载及安装
文档写的很详细哦,https://bioinformatics.mdanderson.org/public-software/spliceseq/installation/
mkdir -p ~/biosoft/SpliceSeqcd ~/biosoft/SpliceSeqwget http://projects.insilico.us.com/SpliceSeq_2.3/SpliceSeq.zipunzip SpliceSeq.zip cd SpliceSeqjava -jar SpliceSeq.jar --help如果仅仅是查看帮助文档,会出现看起来很像是报错的:
No X11 DISPLAY variable was set, but this program performed an operation which requires it.因为这个java软件是有UI界面的,跟fastqc一样,为了方便那些并不会shell编程的朋友使用它,可以直接鼠标点击即可使用。
软件使用过程也有完善的文档:https://bioinformatics.mdanderson.org/TCGASpliceSeq/faq.jsp
具体细节也很多:https://bioinformatics.mdanderson.org/public-software/spliceseq/methods/
这个软件并不大;
361 Apr 29 2016 DB.properties2.0K Apr 29 2016 SGAnalyzer.properties2.4K Apr 29 2016 SGAnalyzerPrograms.properties4.6M Apr 29 2016 SpliceSeq.jar 498 Apr 29 2016 SpliceSeq.properties 126 Apr 29 2016 SpliceSeq.state.properties3.9M Nov 3 2016 SpliceSeqAnalyze.jar1.5K Sep 10 18:40 SpliceViewer.log 65 Nov 3 2016 example 953 Apr 29 2016 log4j.xml它有两个功能
浏览器功能( SpliceSeq Viewer to Access the SpliceSeq DB)
这个通常是用不上的,因为我们可以直接在网页工具体验即可:https://bioinformatics.mdanderson.org/TCGASpliceSeq/
主要是还需要操作MySQL,这个东西对大部分生信工程师来说,都很难。
SpliceSeq Analyzer
需要配套的bowtie软件,如果是界面版本软件运行就比较简单
同样的需要读文档:https://bioinformatics.mdanderson.org/public-software/spliceseq/dataloading/
如果是命令行就复杂一点:

其实就是软件自带的 example 文件夹下面的两个配置文件需要修改啦。当然啦,作者本身其实推荐使用界面版本软件,方便配置。

结果解释
因为软件太古老,不想运行了,所以暂不解释。其实还是推荐其它软件工具哦,比如我前几年写过的教程:
用Expedition来分析单细胞转录组数据的可变剪切 使用SGSeq探索可变剪切 用DEXSeq分析可变剪切,外显子差异表达 rMATS这款差异可变剪切分析软件的使用体验 用LeafCutter探索转录组数据的可变剪切 100篇泛癌研究文献解读之可变剪切事件大起底
更多资源
MA Anderson出品的其它软件:https://bioinformatics.mdanderson.org/public-software/
MA Anderson维护的TCGA数据库资源库:https://bioinformatics.mdanderson.org/StandardizedDataBrowser/
