第三个万能芯片探针ID注释平台R包

下载全部表达芯片平台的探针的碱基序列自主注释到基因ID

前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种bioconductor包的方法,大家无需下载几十个bioconductor包,然后自己一个个提取基因信息,我全部为大家做好啦,也就是 idmap1 这个目前host在GitHub, R包:

  • https://github.com/jmzeng1314/idmap1

但是第一个包只能是解决有bioconductor包的那些芯片平台,毕竟是少数,所以我又开发了第二个万能芯片探针ID注释平台包,参见:第二个万能芯片探针ID注释平台R包 , 把全部表达芯片的soft文件下载好后,提前它们的芯片和基因symbol对应关系并存储好,最后是 idmap2 这个目前也host在GitHub, R包:

  • https://github.com/jmzeng1314/idmap2

大量的GPL平台的soft文件并不提供基因注释新

比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL21827

能拿到的信息就探针序列,所以是idmap1和idmap2都是无法注释的,这个时候就需要我们的idmap3啦!

我下载了全部提供探针碱基序列的GPL平台,然后批量比对到其对应的参考基因组,比如human,mouse,rat ,然后注释到其最新版gtf文件,获取探针比对到参考基因组坐标后注释到的基因信息。

安装我的idmap3包

idmap1解决了bioconductor包下载困难的问题,idmap2解决了GPL平台的soft文件下载困难,而这个idmap3解决了那些并不提供探针的注释信息的平台。

library(devtools)
install_github("jmzeng1314/idmap3")
library(idmap3)

因为有40M,所以下载安装会比较慢哦,喝杯咖啡吧!也欢迎赞助我一杯咖啡,我们一起喝!

关于GitHub下载困难

在中国大陆,大部分人访问GitHub还是很困难的,如果你确实无法下载, 就需要下载我的微云版本:

然后参考我以前的教程:安装GitHub的R包困难解决方案

使用idmap3

比如如果想获取Agilent-079487 Arraystar Human LncRNA microarray V4 (Probe Name version)的注释信息,一行代码就搞定!它的平台是:GPL21827

library(idmap3)
ids=idmap3::get_pipe_IDs('GPL21827')
head(ids) 

这个平台,GPL21827,Agilent-079487 Arraystar Human LncRNA microarray V4 因为在GEO里面仅仅是提供了探针序列,所以我们前面的两个R包都无能为力,只能这个idmap3哦!

你想知道我们支持哪些平台吗,当然是可以看的:

data(gpl_list)
gpl_list[,1:4]

希望你的平台,在我们的列表,能帮助你进行芯片注释。

比较soft文件自带的注释信息和我们的流程注释

rm(list = ls())
options(stringsAsFactors = F)
library(idmap2)
library(idmap3)
# Agilent-011521 Human 1A Microarray G4110A  (Feature Number version)   GPL885
ids2=get_soft_IDs('GPL885')
ids3=get_pipe_IDs('GPL885')
tmp=merge(ids2,ids3,by.x='ID',by.y='probe_id')
table(tmp$symbol.x==tmp$symbol.y)

length(unique(tmp[,1]))
length(unique(tmp[tmp$symbol.x==tmp$symbol.y,1]))
length(unique(tmp[tmp$symbol.x!=tmp$symbol.y,1]))

data("gpl_list")
gpl_list[,1:2]

可以看到很多有趣的问题:

其实很多探针,会同步注释在一个lncRNA和一个mRNA上面,因为lncRNA和mRNA坐标是有交叉的。

而且soft文件自带的注释信息的基因名字都太陈旧了。

An 800 kb deletion at 17q23.2 including the MED13 (THRAP1) gene, revealed by aCGH in a patient with a SMC 17p.

Name:ATRAID. Synonyms:APR3, C2orf28.

Complete information for ASIC5 gene (Protein Coding), Acid Sensing Ion Channel Subunit Family Member ... Previous HGNC Symbols for ASIC5 Gene. 

是不是需要更新你的注释啦

那么,赶快使用我们的包吧!

大家在使用过程中,有任何问题,欢迎留言反馈bugs哈,我们会认真对待每一个留言,把服务做到更好!

更多表达芯片的公共数据库挖掘系列更多教程,见推文 ;

(0)

相关推荐

  • R语言GEO数据挖掘01-数据下载及提取表达矩阵

    欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA.GEO数据挖掘. 这一节的内容包括应用 GEOquery包下载芯片数据,提取表达矩阵,提取m ...

  • 第一个万能芯片探针ID注释平台R包

    昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了.然后开始接近粉丝们的第二个需求,就是探针的ID注释问题.这是一个系 ...

  • 第二个万能芯片探针ID注释平台R包

    整合全部表达芯片平台的soft文件并且提取基因symbol和探针对应关系 前面我们提到过表达芯片探针注释的3种方法,参见:第一个万能芯片探针ID注释平台R包, 并且帮助大家搞定了第一种biocondu ...

  • 芯片探针ID的基因注释以前很麻烦

    最近在答疑群里收到一个很经典的提问,就是: 请问各位老师,GPL570芯片中应该有部分基因是LncRNA,能否通过基因重注释的方式把有意义的LncRNA筛选出来呢?R语言能否实现呢? 而且学生特别的好 ...

  • GEO芯片探针注释

    GEO数据库中 https://www.ncbi.nlm.nih.gov/geo/ 存储着大量的来源于各种平台(Platforms)的数据: 基于Technology,又可分为以下几大类: 芯片主要以 ...

  • 芯片探针序列的基因组注释

    这是我第二次在标题上写重磅!价值一千元的代码,虽然下面的技能或者说代码对我来说是非常简单啦,但是在有需求的粉丝看来真正的价值不可估量. 第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000 ...

  • 芯片的探针ID找到基因名-基于R语言-一文就够

    使用bioconductor注释包 如果该芯片平台有对应的bioconductor注释包,只有约90个常用的芯片有! 比如: library(hgu133a.db) ids=toTable(hgu13 ...

  • 芯片探针序列的基因注释已经无需你自己亲自做了

    第一次是:TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案 第二次是:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 其中第二个教程是纯粹的R代码技巧,怕粉丝看不懂,我 ...

  • 酒桌上给领导敬酒,别只说“我敬您”,记住这三种万能敬酒词

    小林是公司部门的负责人,他和团队成员经过几个月的努力,终于和一家世界500强公司达成合作,签署了一份大合同.大家非常欣赏小林,觉得他是一个大功臣,闹着晚上要去庆祝.同事们还给部门经理打了电话,下班后, ...

  • 老实人不会给领导敬酒, 记住这三句万能话, 直接拿去用!

    随着时间的一点一点过去,总要有那么一天,我们要走向这个复杂的社会,有些人就害怕了,他们不太会看人说话,只自己干自己的活,这就是我们常说的老实人.老实人不会给领导敬酒怎么办?教你三个方法,只管用.这个社 ...