转录组学习二(数据下载)

转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标准化)转录组学习七(差异基因分析)转录组学习八(功能富集分析)任务学习的文章是:《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034在文章里面找到数据地址GSE81916 这样就可以下载sra文件作业,看文章里的methods部分,把它用到的软件和参数摘抄下来,然后理解GEO/SRA数据库的数据存放形式。<font color =orange>文章</font>

image主要内容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)来证明AKAP95对转录后调控的 可变剪接具有重要作用。其中对于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses:测序平台:Illumina HiSeq 2500取样物种:Homo sapiens和Mus musculus 的293个cells数据类型: 双末端PE reads 2 x 50bp参考基因组:人类参考基因组CRCh37/hg19比对软件:TopHat(v2.0.13)GTF文件类型:GRCh38.70比对数据质控:过滤低质量比对reads(MQ > 30)平均插入长度及标准差(mean insert sizes and the s.d.'s):Picard-tools(v 1.126)计算reads count: HTSeq(v0.6.0)差异基因分析:DESeq(v3.0)差异外显子分析:DEXSeq(v3.1)(RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)GO富集分析:DAVID<font color =orange>数据</font>首先简单介绍NCBI的GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)GEO数据库(Gene expression Omnibus)就是当今最大、最全面的公共基因表达数据资源。简单说GEO就是一个公共数据库,包含大多数已在杂志发表文章的原始数据。主页输入文章的登录号GSE81916。根据Overall design可知:1-8位RIP-seq数据,9-15为RNA-seq数据。其中9-11为AKAP95敲除后在人类293个cells里的数据,12-15为在小鼠ES cells里的数据。故我们需要下载9-15的RNA-seq数据。另外一个重要的数据库就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)。同样搜索数据登录号GSE81916。得出关于这些数据的基本信息,其中我们所关注的RNA-seq数据的基本信息如

imageSRR原始数据文件为SRR35899{56..62}其中56~58为人类数据 56为对照组,57, 58为控制组59~62为小鼠的数据.实验处理方式如图:最后下载SRR35899{56..62}这7个数据集看了一下,这7个SRR数据需要10.38Gb 解压完全之后共占空间24.17Gb,数据量感觉"比较大"。

image<font color =orange>下载</font>总共10Gb的数据量下载起来还是需要挺长时间的。目前所知道的有两种下载方式:sratoolkit里自带的preftch程序,与直接循环脚本wget下载数据。Sratoolkit下载mkdir rna_seq_test && cd rna_seq_test###根据SRR数据结尾可知变化的数值主要是最后两个56~62故for i in `seq 56 62` ## shell的``与seq 两个用法donohup preftch SRR35899${i} & ##preftch与 后台运行donepreftch程序会将数据下载存储在$HOME/ncbi/public/sra/目录下。总共10.38Gb,慢慢下。直接根据ftp网址用wget下载ftp网址一般都是具有规律的。根据徐洲更所提各种网址会分为共同部分和变动部分FTP网址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分为以下部分(可以自行删除探索其他网站部分)所有SRA数据的共同部分:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instantreads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果的文件ByStudy表示根据Study进行分类,其他还可以根据实验ByExp,根据Run,ByRun.sra/SRP/SRP075/SRP075747: 进一步的分类检索。可以知道这些文件的地址改变只有最后两个数字的不同。故循环脚本下载如下for i in `seq 56 62`donohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &done最后总共下载完10多G啊,截个图

image2017/10/14 Sat.晚8点小结:对知识点: GEO、SRA数据库, 简单的循环脚本 做了进一步的熟悉。仍然存在的问题就是这些SRA数据包括的数据具体是什么,是如何设计实验方案的。这些预计在接下来解压的文件和后续分析中会有所解释。参考文章徐洲更 (伪)从零开始学转录组:读文章拿到测序数据https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484450&idx=1&sn=61784c91c745b0e3705bbc9145e69f3c&chksm=e9e02d83de97a495a87df0008977d2213736ab0505372c2f04a517ffcfcbf52747e911e89851&scene=21#wechat_redirect青山屋主 如何从NCBI下载高通量数据http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-沈梦圆 PANDA姐的转录组入门(2):读文章拿到测序数据https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmAGEO数据库简介https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html

(0)

相关推荐

  • 【生信笔记】高速下载测序数据:Aspera的安装与使用

    当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ...

  • 【数据库】SRA数据库介绍及数据下载

    [数据库]SRA数据库介绍及数据下载 - 目录 1. SRA数据库介绍 (1) SRP开头的ID:PRJNA = SRP (2) PRJNA开头的ID:SAMN = SRS (3) SRX开头的ID ...

  • 超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库?

    转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...

  • RNA-Seq数据用aspera高效批量下载(万事开头难)

    学完了生信技能树的转录组课程,是时候实战一波了,我选择的是 NCBI数据集是SRP033333 Description KPC (Comparing mutant-p53 expressing cel ...

  • m6A图文复现02-数据下载和质控

    但很多粉丝留言表示这些英文教程看不懂,数据也很分散,没有中文解说实在是很难跟下来,希望我们出一个手把手系列教程. 这个全套 MeRIP-seq 图表复现代码在GitHub:https://github ...

  • lncRNA实战项目-第三步-了解参考基因组及注释文件

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...

  • 看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析

    距离公布要带500个优秀本科生入门生物信息学的活动不到一个月,虽然真正入选不到一百,但是培养成绩喜人,出勤率接近百分之百,大部分人在短短两个星期就完成了R基础知识学习,Linux认知,甚至看完了转录组 ...

  • 文本处理时需小心驶得万年船

    同样的GEO数据库的NGS数据重新处理,按照往常的方式下载sra转为fq,链接是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE10233 ...

  • 技术贴 | 宏转录组专题 | DDBJ数据库:宏转录组测序数据下载

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 DDBJ(DNA Data Bank of Japan)是与NCBI的GenBank,EMBL的EBI数据库齐名的世 ...

  • 转录组学习三(数据质控)

    对原始测序fq文件数据进行质量控制 任务 了解fastq测序数据 需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量! 作业,理解测 ...

  • 基于深度学习的脑电图识别 综述篇(二)数据采样及处理

    更多技术干货第一时间送达 作者|Memory逆光 本文由作者授权分享 导读 脑电图(EEG)是一个复杂的信号,一个医生可能需要几年的训练并利用先进的信号处理和特征提取方法,才能正确解释其含义.而如今机 ...

  • TCGA学习01:数据下载与整理

    前言交代 1.学习参考 之前参加了生信技能树花花老师的TCGA数据挖掘试讲课,收获很多,最近整理一下上课笔记,同时参考了老师的简书相关教程.生信入门的朋友也可微信加入生信星球公众号,个人觉得很好的一个 ...

  • Redis学习二(数据操作).

    key 操作 删除 key:del key 批量删除key:redis-cli -a(密码)keys "QXJ_*"| xargs redis-cli -a(密码)del 查看所有 ...

  • mysql进阶学习二之搭建主从

    前面说了主从复制的原理,现在我们搭建主从结构 1. 提前准备 我准备了两台主机,主节点是远程的centos7,从节点是本机windows 主从复制的原理在上一篇已经说了:主节点中mysql创建一个用户 ...

  • 风水学习—二十四山三元龙及运用配图解!

    二.地天人三元龙 在玄空风水学上,我们将地盘正针二十四山分成地.天.人(三才)三元龙.周天八个卦宫中任何一个卦宫均有三个山,按顺时针方向,依次排列的元龙顺序是:地元龙.天元龙.人元龙. 在这里买翡翠不 ...

  • 学习“二王”,二条重要路径!

    魏晋是书法走向艺术自觉的重要转变时期.作为书体演进的一个环节和这一时期众多书家的突出代表,王羲之兼工诸体,并继往开来,裁成不同于汉魏的草.行.楷新体(今体):王献之书承羲之,交融草.行而宏逸过父.二王 ...

  • 学习“二王”行书的二条重要路径!

    魏晋是书法走向艺术自觉的重要转变时期.作为书体演进的一个环节和这一时期众多书家的突出代表,王羲之兼工诸体,并继往开来,裁成不同于汉魏的草.行.楷新体(今体):王献之书承羲之,交融草.行而宏逸过父. 二 ...