2003 年,人类基因组计划完成,揭开了人体 30 亿个碱基以及约 20000 多个蛋白编码基因的秘密。然而这些基因只占人类基因组的 2%。因此,在随后的 20 年时间里,科学家一直在尝试寻找人类剩余 98% 的 DNA 具有什么功能。现在,一项名为 DNA 元件百科全书计划(ENCODE)的系列研究朝着这一目标取得了重大进展,该研究第三阶段发现了 120 多万个基因调节元件,以及它们何时、何地调节基因的 “开关”。《自然》《自然-方法》和《自然-通讯》发表的 14 篇论文合集描述了这一结果,为基因组组构和功能带来了新的认知。
Nature 杂志官网 ENCODE 合集目前,这一系列研究的数据已对外开放。正如来自美国国家人类基因组研究所(NHGRI)的 Eric Green 博士所说,“ENCODE3 的主要目标之一就是开发可以与更广泛的研究团体共享 ENCODE 实验数据的方法,这有助于扩大我们对基因组功能的理解,ENCODE3 开放了搜索和可视化工具,从而使科学工作者可以更快捷的访问这些数据。”探索基因的奥秘人体由数千种、数万亿个细胞组成。尽管所有的细胞都来自同一个受精卵,共用一套基因组,但是不同类型的细胞(例如,心脏细胞、肺部细胞以及神经细胞)可以通过激活基因组中不同的基因来执行不同的功能。深入了解基因调控机制,有助于更好的了解人体细胞发育以及疾病发生的机制。功能性元件是指编码具有调控基因作用的分子产物或生化活动的 DNA 区域。ENCODE 计划于 2003 年启动,致力于绘制人类与小鼠基因组功能性元件的综合图谱。作为一项广泛协作的基础研究工作,ENCODE 计划涉及来自美国和国际各地的小组,由 500 多名具有不同专业知识的科学家组成。得益于世界各地独立研究人员进行的数十年基因调控研究,并以此为基础,ENCODE 研究人员创建了一个社区资源,以确保任何研究人员均可访问该项目的数据。
DNA 元件百科全书计划(ENCODE)概述为了进一步阐明基因以及各种调控因子之间相互作用的细节,ENCODE 3 研究人员进行了近 6000 次实验,包括人类实验 4834 次,小鼠实验 1158 次。ENCODE 3 研究人员研究了胚胎小鼠组织的发育过程,以了解在小鼠发育过程中发生的各种基因组和生化变化的时间表。小鼠由于其与人类的基因组和生物学相似性,可以帮助我们了解人类的发育和疾病发生。根据 ENCODE 已经绘制出的数百万个元件,研究人员还建立了一个在线注册库,里面包含了 926535 个人类的和 339815 个小鼠的候选顺式调节元件(调节基因转录的非编码 DNA 区域),覆盖到各自基因组的 7.9% 和 3.4%。此外,研究人员利用 ENCODE 的数据集揭示了决定部分功能性元件作用方式的原理,分析了 DNA、与 DNA 结合蛋白、RNA 的化学修饰如何相互作用以调控基因的表达。ENCODE 3 的结果也有助于解释蛋白质编码区以外的 DNA 序列变异如何影响基因的表达,甚至是距离特定变异本身很远的基因。
基因组中的 DNA “开关”,调节了基因何时何地被打开(来源:Ernesto Del Aguila III, NHGRI.)连接 RNA 和疾病此前,人们主要依靠染色质免疫共沉淀测序(ChIP-seq)技术来检测 DNA 调控元件的序列。这一技术可以帮助研究人员识别 DNA 结合蛋白与 DNA 的结合位点,从而确定这些 DNA 序列的功能。然而,这一技术不会检测参与基因调控的 RNA 元件。因此,研究人员采用了增强紫外交联免疫沉淀结合高通量测序(eCLIP)技术,该技术可以使用紫外线将 RNA 分子与细胞内的 RNA 结合蛋白交联,然后用特定的抗体分离 RNA 结合蛋白,并对与之结合的 RNA 进行测序。