【生信笔记】查找GEO数据集 2024-06-22 19:28:17 A什么是GEO数据库?GEO数据库全称Gene Expression Omnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的大多数高通量基因表达数据,GEO除了二代测序数据,还包含芯片测序、单细胞测序数据。BGEO数据库数据类型GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前要了解GEO数据库的4个概念和4个数据存放类型:GSE数据编号(Series)、GPL数据编号(GEO platforms)、GSM数据编号(Samples)、GDS数据编号(Datasets)一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。 详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.htmlCGEO数据库使用方法进入GEO数据库官方网站:https://www.ncbi.nlm.nih.gov/geo/。一、已知GEO数据库的GSE数据编号通过阅读文献,我们可以知道作者提交GEO数据库后产生的GSE数据编号,例如GSE40839,在搜索框输入GSE40839并点击Search然后就可以得到相应的数据信息:通过阅读基本信息可以了解样本的数据格式、研究设计信息等其中不同类型的数据解释如表所示,一般情况下我们可以直接使用样品表达矩阵或者下载芯片原始数据进行分析,如何去处理这些数据,我们在后面的内容中会详细介绍。 数据类型 描述 数据解释 SOFT SOFT formatted family file(s) 平台信息芯片中探针与基因的对应关系注释文件,样品单独的表达量,所有信息文件 MINiML MINiML formatted family file(s) XML格式的所有数据(同SOFT文件单格式不同) TXT Series Matrix File(s) 所有样品表达矩阵数据文件 TAR (of CEL) GSE40839_RAW.tar 芯片原始数据(cel)文件 二、搜索感兴趣的GSE数据集许多情况下我们可能是出于研究目的想要搜索某个领域的数据集,这时在未知数据集编号的情况下,如何进行查找呢?我们可以点击主页Search for Studies at GEO DataSets搜索相关的内容后,可以看到GEO数据库界面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息等通常为了更加精确的找到数据,我们需要对数据类型与测序平台等信息进行限定。一般情况下数据类型我们选Series。GEO包含的测序平台类型非常多样,比如DNA、mRNA、SNP、甲基化等等,在检索时结合自己的实验设计选择相应的检测类型。当在检索结果中找到感兴趣的数据集时,直接点击标题接下来的界面就如同我们已知数据编号GSE175626一样了。接下来的推送中,我们将向大家介绍如何进行数据下载与差异基因分析。*部分内容摘抄于网络。 赞 (0) 相关推荐 NPC的突变特性(逆向收费读文献2019-13) 栏目起源 逆向收费读文献社群 (2018-01-07) 逆向收费读文献社群 (2018-06-09) 逆向收费读文献社群(第二年通知)(2019-01-26) 大概有50人加入吧,成功坚持下来的朋友们 ... 转录组学习二(数据下载) 转录组学习一(软件安装)转录组学习二(数据下载)转录组学习三(数据质控)转录组学习四(参考基因组及gtf注释探究)转录组学习五(reads的比对与samtools排序)转录组学习六(reads计数与标 ... GEO(Gene Expression Omnibus):高通量基因表达数据库 #GEO是什么? GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Database ... 什么,你感兴趣的GEO数据集没有关联到原始文献出处 一般来说,想挖掘GEO数据库的公共数据集,最后发表时候都要引用该数据集的原始文献.一个GSE数据集会关联到一个原始文献,比如: https://www.ncbi.nlm.nih.gov/geo/que ... GEO数据库中国区镜像奔走相告啊 最近还是大量粉丝留言表示自己因为疫情困在家里,想做数据挖掘混个本科毕业论文,但是看完我的GEO数据挖掘视频后,想下载个数据集,就被卡死了,实在是巧妇难为无米之炊! 这个不怪大家,我给大家的免费的GEO ... 生信菜鸟团博客2周年精选文章集(4)NCBI数据库的几个探索 目录如下: 生信人必学ftp站点之NCBI-GEO 脚本作业-解读NCBI的ftp里面关于人的一些基因信息 NCBI的taxid简单介绍 NCBI的基因entrez ID相关文件介绍 请直接看我博客吧 ... R语言GEO数据处理(二) #1. GEO数据的下载 ##1.1 方法一:下载RAW Data数据 ##1.2 方法二:下载series Matrix表达数据 rt <- read.table("GSE56814 ... 【生信笔记】如何避免基因名称被Excel自动转换? 在进行生信分析时我们会发现,将测序数据用Microsoft Excel打开后,部分基因名会自动转换为日期或浮点. 例如,将下表中第一列的数据导入Excel后,将自动转换为第二列的内容: 一旦导入Exc ... 【生信笔记】Linux如何自动登录服务器账号? 在使用服务器时,往往需要进行密码登录,甚至有的需要先登录堡垒机,再登录开发机,输入过程较为繁琐,因此可以考虑将命令写成脚本的形式自动化登录. expect是一个能实现自动和交互式任务的解释器,它也能解 ... 【生信笔记】R语言将Excel文件按照列名拆分为多个文件 首先来看拿到这组数据,需要按照outcome的列名不同将数据保存为Paresthesia.csv和Dry mouth.csv两个文件,假如数据量少,我们一般在Excel进行筛选(保证列名存在,直接复制 ... 【生信笔记】数据框按照特定顺序修改列名 在前期我们为大家介绍了[R包荟萃]热图绘制工具:pheatmap包详解,其中想要绘制分组的热图时需要两个数据,即原始表达矩阵mat和分组信息annotation_col,其中annotation_co ... 【生信笔记】高速下载测序数据:Aspera的安装与使用 当我们需要一些NGS数据时,一般会去NCBI或者EBI的数据库中下载.但是当我们用wget下载时,时常会出现断开连接或者网络下载速度缓慢,对于几十G或者上百G的数据,下载无计可施,这是则可以使用Asp ... 【生信笔记】右键菜单打开WSL功能方法简介 在人工智能以及生物信息学发展迅速的现在,充分掌握相关技术是非常重要的,而由于系统的差异,导致很多软件需要在Linux或者Mac OS上运行,长期以来,在Windows系统上解决这一难题的方式是安装虚拟 ... 生信笔记 | 自定义GSEA分析中的gmt格式文件 在GSEA分析中,在MSigDB(Molecular Signatures Database)数据库中定义了很多基因集,下载的基因集是gmt格式文件.下载的gmt格式文件,打开后可以看见是下面这个样子 ... 生信笔记 | 文本挖掘的一般流程 一.文本挖掘的一般过程 参考: http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-sim ... GEO数据挖掘+实验验证,这样的生信发了4分+SCI 参考文章:Bioinformatic analysis identifying FGF1 gene as a new prognostic indicator in clear cell Renal ...