R语言GSEA分析(二)
转换基因ID
如基因名是symbol,需要将基因ID转换为Entrez ID格式。Entrez ID实际上是指的Entrez gene ID,是对应于染色体上一个gene location的。每一个发现的基因都会被编制一个统一的编号,而Entrez ID是指的来自于NCBI旗下的Entrez gene数据库所使用的编号。因为Entrez ID具有特异性,所以后续分析更适合用Entrez ID。
df_id<-bitr(df$SYMBOL, #转换的列是df数据框中的SYMBOL列
fromType = "SYMBOL",#需要转换ID类型
toType = "ENTREZID",#转换成的ID类型
OrgDb = "org.Hs.eg.db")#对应的物种,小鼠的是org.Mm.eg.db
>'select()' returned 1:many mapping between keys and columns
Warning message:
In bitr(df$SYMBOL, fromType = "SYMBOL", toType = "ENTREZID", OrgDb = "org.Hs.eg.db") :
7.87% of input gene IDs are fail to map... #7.87%没有比对到就是没有转换成功
把两个数据框df 和 df_id根据SYMBOL列合并。
df_all<-merge(df,df_id,by="SYMBOL",all=F)#使用merge合并
head(df_all) #再看看数据
dim(df_all) #因为有一部分没转换成功,所以数量就少了。
> head(df_all)
SYMBOL logFC ENTREZID
1 A2M -0.713519723 2
2 AAK1 -0.089497971 22848
3 AAMP -0.014536797 14
4 AARS2 0.077105219 57505
5 AASDHPPT -0.000560858 60496
6 ABCA1 0.436678052 19
> dim(df_all)
[1] 4660 3
赞 (0)
