Nature子刊 | 全长转录组重建揭示了大鼠海马中RNA和蛋白质亚型的多样性(国人作品 IF=11.878)

编译:大师球,编辑:十九、江舜尧。

原创微文,欢迎转发转载。

南方科技大学生命与健康科学学院生物系陈炜教授团队于2019年11月1日,在Nature Communications(IF=11.878)在线发表了题目为《Full-length transcriptome reconstruction reveals a large diversity of RNA and protein isoforms in rat hippocampus》的文章,该研究开发了一种用于重建全长转录本(Flts)的杂交测序流程,将其应用于对大鼠海马中表达的Flts进行注释,并通过正交试验验证了该流程的有效性。
文章摘要 
基因注释是基因组学研究中的重要方法。现有的基于高通量短读测序的转录组算法,准确性有限。第三代测序具有读长长的特点,能明显减少后续的基因组拼接和注释的工作量,节省大量的时间,并且提高了测序的准确性。在本研究中作者结合了二代和第三代测序技术,对大鼠海马体全长转录组进行了重新注释,并使用独立的5'和3'端分析方法对其进行了进一步验证。共检测到28268个全长转录本(FLT),涵盖了6380个Ref-Seq基因和849个未注释的基因座。在这些FLT中还发现了同时发生的可变RNA剪切事件。作者又结合多核糖体转录谱和核糖体测序,预测了可变异构体的翻译状态,并重建了开放阅读框(ORF)-eome,又采用蛋白质组学验证了ORF-eome的预测。最后确定了神经元中各种蛋白亚型的定位。总的来说,这些数据扩展了当前的大鼠基因注释,提高了人类对大鼠脑中RNA和蛋白质亚型多样性的了解,并为功能研究提供了丰富的资源。

文中重要图片说明

图1 用于全长转录组注释的混合测序工作流程

图2 高可信度的全长转录组文库建立。

(a)基于CAGE和3'seq数据的全长转录本末端验证和过滤方案。

(b)PacBio转录5'末端与CAGE簇之间的基因组距离,以及PacBio转录5'末端与注释的基因TSS之间的距离。

(c)PacBio转录本3'末端和3'seq簇之间的基因组距离,以及PacBio转录本3'末端与注释的基因TES之间的距离。

(d–f)高置信度全长转录组的三个示例基因。

图3 RNA亚型多样性和同时发生的可变RNA剪切事件。

(a)大鼠全长转录组注释与大鼠RefSeq和Ensembl注释对比图;

(b)关于RefSeq亚型的全长转录组分类比例。

(c)不同类型可变RNA剪切的数量。

(d)可变RNA剪切事件的同时发生的网络图。

图4 可变体特异的翻译状态多样性。

(a)全长测序、多核糖体测序和核糖体测序的综合分析方案。

(b)不同翻译状态下的全长转录组可变剪切的比例。

(c)可变剪切亚型翻译活性的观测值和预期值之比的变化倍数。

图5 ORFeome重建后识别的未注释的ORF变体和新的的ORF。

(a)带注释的ORF和全长转录组中所有可能的ORF的分布。

(b)ORFeome、RefSeq和Ensembl中每个基因的ORF数。

(c)ORF的类型。

(d)ORFeome中不同ORF类型的比例。

(e–g)RNA剪切体对ORF变体多样性的影响。

图6 使用基于MS的蛋白质组学对基于全长转录组的ORFeome进行验证。

(a)有肽证据支持的ORF的数量(左)和百分比(右)。

(b)有肽证据的ORF得分与没有证据的ORF得分比较(Mann–Whitney U检验)。

(c,d)已知基因座中鉴定出的两个有肽支持的新型ORF例子。

图7 神经元不同区域中的蛋白亚型分布。

(a)神经元胞体细胞室(x轴)和神经纤维(y轴)之间的蛋白亚型丰度。

(b,c)不同区域蛋白亚型举例。


(0)

相关推荐