结合DNA远端互作预测基因表达和染色质状态的计算模型可以帮助更好地理解转录调控以及变异对转录调控的影响,补充基于人群的关联研究。但基于人群的关联研究通常局限于常见的变异,并且由于连锁不平衡,很难将因果关系与关联区分开。此外,人类遗传变异的实验验证非常复杂,并且仅限于某些细胞类型或组织,因此很难检测到所有变异。虽然结合DNA远端互作的计算模型在原则上可以克服这些问题,但其有限的准确性仍然无法满足研究需求。深度卷积神经网络实现了结合人类和小鼠基因组互作信息预测基因表达。这些模型只能预测与转录起始点(TSS)的距离最多为20kb的序列元素,但许多调控元件,例如增强子、阻遏子和隔离元件,可以对距离在20kb以外的基因产生影响。研究人员认为,增强对远端元件的预测是提高预测准确性的一条途径。近日,Calico Life Sciences公司团队联合DeepMind研究团队,开发了一种结合DNA远端互作进行基因表达和染色质状态预测的深度学习模型——Enformer,并在Nature Methods上发表了题为“Effective gene expression prediction from sequence by integrating long-range interactions”的研究文章。为提高结DNA远端互作预测基因表达的准确性,研究团队通过Enformer整合了来自基因组的远端互作信息,能够更准确的预测变异效应。此外,Enformer结合了直接从DNA序列预测增强子-启动子相互作用的方法,使得精细映射人类疾病成为可能。