重磅里程碑|人类基因组完成图发布
原文地址:
https://www.biorxiv.org/content/10.1101/2021.05.26.445798v1.full.pdf+html
基因组测序数据和组装地址:
Sequencing data and assemblies (NCBI BioProject PRJNA559484):
https://www.ncbi.nlm.nih.gov/bioproject/559484
Sequencing data, assemblies, and other supporting data on AWS:
https://github.com/marbl/CHM13
Assembly issues and known heterozygous sites:
https://github.com/marbl/CHM13-issues
UCSC assembly hub browser:
http://genome.ucsc.edu/cgi-bin/hgTracks?genome=t2t-chm13-v1.0&hubUrl=http://t2t.gi.ucsc.edu /chm13/hub/hub.txt
Dotplot visualization and browser:
https://resgen.io/paper-data/T2T-Nurk-et-al-2021/views/t2t-identity
T2T Consortium homepage:
https://sites.google.com/ucsc.edu/t2tworkinggroup
摘要:
2001年,Celera基因组学和国际人类基因组测序联合会发布了他们的人类基因组初稿,这彻底改变了基因组学领域。这些草稿和随后的更新有效覆盖了基因组的常染色体部分,而异染色质和许多其他复杂区域则未完成或有错误。端粒到端粒(T2T)联盟解决了剩下的8%的基因组问题,完成了人类基因组的第一个真正完整的30.55亿碱基对(bp)序列,代表了人类参考基因组自首次提出以来的最大改进的释放。新的T2T-CHM13参考基因组包括所有22个常染色体加上X染色体的无间隙装配,纠正了许多错误,并引入了近2亿bp的新序列,其中包含2,226个旁系同源基因拷贝,其中115个被预测为蛋白质编码。新近完成的区域包括所有着丝粒卫星阵列和所有5个顶体染色体的短臂,首次将基因组的这些复杂区域解锁,以进行变异和功能研究。
背景介绍:
Genome Reference Consortium(GRC)于2013年发布了人类参考基因组的最新重大更新,并于2019年发布了最新补丁(GRCh38.p13)。该组织的起源可追溯到公共资助的人类基因组计划,并且在过去的二十年中不断得到改进。和Celera genomic和大多数现代基因组计划基于鸟枪法测序策略不同的是,GRC人类参考基因组主要基于来自细菌人工染色体(BAC)克隆的Sanger测序数据并通过辐射杂交,遗传连锁图片和指纹图谱进行基因组定位和组装。这种费力的方法导致了这个策略产生的参考基因组在今天仍然是最连续和准确的参考基因组之一。但是,当前的GRCh38.p13参考基因组仍旧包含了151 Mbp的未知序列,分布在整个基因组中,包括着丝粒和亚端粒区域,最近的片段重复,两性基因阵列和核糖体DNA(rDNA)阵列,所有这些都是基本细胞过程所必需的(图1A)。一些最大的参考缺口包括所有五条复杂染色体(Chr13,Chr14,Chr15,Chr21和Chr22)的整个p臂(短臂),以及大型人类卫星阵列(例如,Chr1,Chr9和Chr16),目前的参考基因组中将其简单地表示为数MB级别的未知碱基('N')延伸。
图1 T2T-CHM13 完整基因组组装总结图。
尽管这些失踪或错误区域在功能上具有重要意义,但人类基因组计划于2003年正式宣布完成,并且在随后的几年中缩小剩余差距方面的进展有限。这主要是由于上述结构的局限性,也归因于当时的测序技术,这些技术被低成本,高通量的短读长方法所控制,每次测序只能对几百个碱基进行测序。因此,基于散弹枪法的组装方法无法超越现有参考基因组的质量。但是,长读长测序技术的基因组测序和组装方法的最新进展已使单个人类染色体从端粒到端粒的完整组装成为可能。除了使用长读长测序技术,这些T2T项目还针对单克隆的CHM细胞系的基因组,它们几乎是完全纯合的,因此比杂合的二倍体基因组更容易组装。这种从头开始的单倍型策略克服了GRC基于镶嵌BAC的传统的局限性,绕开了结构多态性的挑战,并允许使用现代基因组测序和组装方法。
在引入PacBio的单分子技术之后,应用了长读长测序技术来改善人类参考基因组,这是第一项能够产生多碱基碱基序列读数的商业测序技术,即使错误率达15%,事实证明其也能够解决GRCh38中复杂形式的结构变异和缺口。Oxford Nanopore的单分子纳米孔技术是测序长读长测序技术的下一个重大进展,该技术能够对超过1 Mbp的“超长”读取序列进行测序,通过跨越大多数基因组重复序列,这些超长读段可实现高度连续的从头组装,是实现完整人类基因组的关键技术,包括人类着丝粒(ChrY)和人类染色体(ChrX)的第一批完整基因组。
为了创建完整无缺的人类基因组装配,作者同时利用了PacBio HiFi和Oxford Nanopore超长读长技术,并结合了CHM13hTERT细胞系(以下称为CHM13)的基本单倍体性质。所得的T2T-CHM13参考组装物从基于序列的分析中消除了20年的壁垒,该壁垒隐藏了8%的基因组,包括所有着丝粒区域和5条人类染色体的整个短臂。在这里,作者描述了第一个真正完整的人类参考基因组的构建,验证和初步分析,并讨论了其对该领域的潜在影响。
参考文献:
Nurk et al., The complete sequence of a human genome. 2021. BioRxiv.