托国家队的福!又结识了一个全能的“王者级”lncRNA数据库!
解螺旋公众号·陪伴你科研的第2415天
lncRNA数据库中的多面手
由于今天这款lncRNA数据库实在是重磅,我就直接告诉大家吧,不管你是做基础研究还是做疾病研究,不管你是研究肿瘤还是非肿瘤,不管你是研究胚胎发育还是病毒感染,不管你是研究外泌体还是周期节律,这款数据库你都用得上!
10月12日,中国国家生物信息中心的马利娜教授和章张教授课题组联合在国际著名杂志《Nucleic Acids Research》(IF = 11.501)上发表了了这款超重磅数据库,LncExpDB。
它包含了来自9种生物学环境中,337种生物学条件下1977个样品的10万多个高质量人lncRNA基因的表达谱,还鉴定了25191个特征基因,并进一步获得了2844万+条lncRNA-mRNA相互作用。数据库涵盖多种生物学环境中lncRNA基因的表达谱,预测其潜在的功能性lncRNA及其相互作用的partners,从而为实验研究和设计提供指导。
该数据库的网址为:https://bigd.big.ac.cn/lncexpdb/

下面本工来给大家介绍下这款超重磅数据库。进入主页后,主页长这样,大家可以直接在红色的长方框里搜索lncRNA,可适用多种不同的lncRNA格式。在Resource里面也可以看到这款数据库所包含的数据囊括了很多研究的方向,任意点击进去就可以查看这个方向内的数据信息。

我们先以搜索lncRNA为例来看看这个数据库的能耐。在搜索框输入lncRNA名字后会跳出如下界面,界面的左边是展示了这个lncRNA在不同的生物学环境下(正常组织、正常/肿瘤细胞系、亚细胞定位、外泌体、病毒感染等)的数据信息,对哪部分感兴趣就点击直达。右边就是具体的信息了,在Summary里展示了lncRNA的染色体定位,还有功能分类(Classification,主要有Intergenic、Intronic、Sense、Antisense),下面还有更多外部链接可以查看更多信息。

然后就是展示了不同转录本的信息,大家可以点击蓝色的字体,跳转出来的界面包含了定位和序列信息、编码可能性、序列、基因组浏览器、在人体不同组织和细胞系中的表达、在正常和肿瘤中的DNA甲基化修饰信息、突变或SNP、和miRNA之间的interaction、生物学功能和参与的疾病,你想要知道什么,这里基本上都能满足你!


然后在分别展示了在不同组织中的表达量

不同正常细胞系中的表达量

不同肿瘤细胞系中的表达量

后面还有在不同亚细胞定位、不同肿瘤的外泌体中的表达量、不同病毒(COVID、HIV、HBV、HCV)感染组织中的表达量、胚胎不同发育时期的表达量、不同年龄不同器官中的表达量、不同细胞细胞分化时间的表达量、还有随节律周期变化而波动表达的图表展示,本工就不一一展示了,大家可以自行查看。
在“Featured Genes”模块,大家可以根据自己的研究方向,筛选自己研究领域内的特征lncRNA,在网页下面的表格里展示了lncRNA的功能分类,并在哪些生物环境下属于特征性的lncRNA。

我们再在“Context”模块以“Cancer Cell Line”为例学习这个数据库。在页面上方,红色方框里的字体会告诉你这部分数据展示和分析的逻辑。在这部分是识别和表征癌细胞系的细胞特异性基因和一致表达的基因,并基于共表达网络进一步预测lncRNA-mRNA相互作用。而“Cell Differentiation”里则是从iPSC分化为心肌细胞的过程中识别并表征不同模式的基因,并基于共表达网络进一步预测lncRNA-mRNA相互作用。
这部分可以根据特征基因来筛选lncRNA,这个特征基因可以通过3种模式定义:1. 根据组织特异表达性(组织特异指数>=0.9)或者表达具有一致性(组织特异指数<=0.35)的基因;2. 具有细胞特异性(所有细胞系中,基因在选定的该细胞系中高表达);3. 自行根据一些参数来确定(包括组织特异性指数、表达波动幅度、变异系数CV)

在网页下面会展示过滤的结果,Gene ID展示的是lncRNA的数据库ID,Gene Symbol展示的是标准的基因名,还有其他的表达特征参数,点击Chart可以绘制在不同肿瘤细胞系中表达量的提琴+box图。

而在上面用橙色标记的Interactions小模块里,则展示了lncRNA和蛋白编码基因(PCG)之间的共表达网络进行筛选共表达网络。一方面大家可以根据顺式Cis或者反式Trans作用进行筛选,也可以根据皮尔森相关系数(R)、P-Value、还有lncRNA与mRNA在染色体之间的距离(位于同一染色体时distance为数字,位于不同染色体时Distance为Trans)进行筛选。

在Expression Capacity模块里,网页展示了不同lncRNA在不同生物环境中的表达能力,并分为高(HC)、中(MC)、低(LC)、不表达(NE)四种不同的类型,以此可以大概判断该lncRNA发挥生物学功能的环境和条件。

在Interaction模块,可以直接搜索lncRNA和蛋白表达基因之间的interaction(数据的筛选标准为adjusted p-value < 0.01 且|R|>=0.5),

在Download模块,大家可以自己下载数据结果自行筛选过滤来辅助自己的研究。

和解螺旋之前介绍过的starbase数据库主要通过整合数据和软件预测来分析RNA之间的相互作用不同,LncExpDB主要通过整合不同环境和条件下的数据,来看lncRNA主要在哪些生物过程中起作用,可以帮助大家更加准确地筛选和预测其功能。数据库就介绍到这里,祝大家都有收获!

