终极存储解决方案:把ZB级海量数据写在DNA上

小小的双螺旋结构能够在不可思议的袖珍空间内存储惊人的信息量。
来源丨Scientific American
编译丨科技行者

在如今这个经受着大数据洗礼的时代下,弄清楚如何以低成本方式存储数据已经成为愈发重要的核心议题。其中最奇特的方案也许就是最佳答案所在:在DNA分子中存储信息。

目前流行的长效冷存储方法可以追溯到上世纪五十年代,当时人们会把数据写入至披萨饼大小的磁带卷上。相比之下,DNA存储可能成本更低、能效更高、持久性更强。研究表明,用盐封存的DNA在室温环境下可以稳定保存几十年,如果在数据中心的受控环境内应该可以存放更长时间。另外,DNA本身不需要维护、存储DNA内的文件易于复制,而且存储成本几乎可以忽略不计。

更妙的是,DNA能够在几乎不可思议的袖珍空间内存储惊人的信息量。我们先来展望这样的未来:到2025年,人类估计将掌握33泽字节(ZB)数据——即33后面加上21个0。DNA存储能够在一个乒乓球的体积下存储全部这些信息,甚至还有不少富余空间。美国国会图书馆中一共7400万字节的信息完全可以塞进一粒小小的芝麻中,即乒乓球体积的六千分之一。而只需要半颗芝麻,就能存储Facebook上的所有数据。

听起来很科幻?并不会。DNA存储技术当下已经存在,但要真正全面推行,研究人员还需要克服技术整合中的种种艰难阻碍。要完成这项意义重大的工作,洛斯阿拉莫斯国家实验室的团队开发出一种用于分子存储的关键技术,配套软件能够使用自适应DNA存储规范(ADS Codex)将数据文件由计算机中的二进制形式转译为具有生物学意义的四字母代码。

ADS Codex也是情报高级研究计划署(IARPA)分子信息存储(MIST)项目的关键组成部分。MIST希望为政府及各私营部门的大数据操作提供成本更低、规模更大、持久性更强的存储解决方案,目前的短期发展目标是在24小时内实现写入1 TB(1万亿字节)、读取10 TB数据的性能,并且将成本控制在1000美元。

从计算机代码到因素代码

提起DNA,大多数人想到的首先是生命的蓝图——跟计算机扯不上半点关系。但DNA本身其实就是一条四字母编码,用于传递关于生物体的各项信息。DNA分子由四种碱基或者核苷酸组成,每一种用一个字母标记,分别为:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)与胞嘧啶(C)。这些是所有DNA编码的基础,指引着地球上一切生物的繁衍生长。

DNA合成已经是一项相当成熟的技术,目前被广泛应用于医学、制药、生物燃料开发等领域。这项技术的实质,就是将碱基组织为由A、C、G、T的特定序列所指示的不同排列。这些碱基以相互缠绕的扭曲链(即双螺旋)结构形成分子。而字母本身的序列也由此建立起编码系统,可用于指导生物体的生长发育。

完整的DNA分子集将构成基因组,也就是肌体生长的蓝图。而通过从零开始合成DNA分子,研究人员发现他们可以指定编写出由字母A、C、G、T组成的长串,并随时读取序列信息。整个流程类似于计算机中的二进制信息存储方式,只是这一次我们需要将二进制计算机文件编码为四字母生物分子的形式。

这种方法已经被证实有效,但目前对DNA编码文件的读取与写入都需要很长时间。向DNA中添加单一碱基大约需要一秒钟,以这样的速度编写归档文件可能需要几十年时间。但研究人员正在开发速度更快的方法,包括一次性写入多个分子并进行大规模并发操作。

转译过程没有任何数据损失

ADS Codex准确说明了如何将0和1转录为A、C、G、T四个字母的组合序列。Codex还能将此序列解码回二进制形式。DNA可以通过多种方法合成,而ADS Codex则将这些合成方法进行了规范整理。

遗憾的是,与传统数字系统相比,使用DNA合成进行分子写入时的错误率非常高。这些错误的来源与数字写入完全不同,因此更难以纠正。在数字硬盘上,将0误写为1即代表错误,反之亦然。但对于DNA,问题主要来自插入与删除错误。例如,我们可能希望写入A-C-G-T,但实际上A没能正常写入,于是整个字母序列向左移动,变成了C-G-T。当然,也有可能一次写入,直接形成了A-A-A。

常规的纠错码无法很好地解决这类问题,因此ADS Codex添加了验证数据的错误检测码。当软件将数据转换回十进制时,会同时进行测试以查看代码是否匹配。如果不匹配,则会删除或添加碱基(字母)直到验证成功。

前景可期

目前已经完成了ADS Codex的1.0版本,今年年底计划用它来评估其他MIST团队开发的存储与检索系统。这项工作也高度契合洛斯阿拉莫斯国家实验室在计算领域不断开拓的历史使命与探索精神。自上世纪四十年代以来,我们一直钻研计算技术并积累下一批历史最悠久、规模最庞大的纯数字数据资产。时至今日,这些资产仍然具有可观的价值。我们将永远保存这些数据,希望为其找到最理想的冷存储解决方案。

最终,每位用户的数码照片与推文,全球金融部门的所有记录,关于农业、设施、冰川融化等的卫星图像,现代科学背后的一切模拟体系等数据终将有所归处。如今大家所熟悉的“云”并非高悬天外,而是一座座巨大的数据中心,需要消耗大量电力才能存储这数以万亿计的字节。这些数据中心的建设、供电与运行成本高达数十亿美元,而随着对数据存储需求量的指数级增长,我们恐怕很难无限制地支撑这样的基础设施规模。

DNA也许正是数据存储的终极解决方案。诚然,这项技术需要新的工具与新的使用方法,但如果真有一天全球最具价值的信息已经能够存储在小小一颗“芝麻”当中,也请大家千万不要过分惊讶。

(0)

相关推荐

  • 人体的构成

    ​人体各个器官,都是由不同类型的细胞群组成的!因而,人体在生存.生活.生命的过程中.由于内.外因素的作用,难免会发生许多干扰.影响健康生存的疾病.生病的过程和起因,还得从细微的细胞说起. 细胞 人体内 ...

  • 为什么不用DNA存储海量数据?

    本文来源:物联传媒 本文作者:露西 从原始社会的结绳记事,到之后的竹简纸张,近代时人们用磁带和光盘,而现在最为常见的还有闪存和硬盘--生活在被数据包围的世界,人类从未停止追求高效便捷的信息存储方式. ...

  • 分离金额,神级公式写不粗来,我用PowerQuery

    小勤:大海,怎么把这个付款详情的数据给分离出来啊?我在网上搜了个神长公式,但看不懂啊! 大海:这么有规律的数据,用Power Query直接点点点就搞定了 Step-01 创建查询 随便选中一个有内容 ...

  • 技术 | AutonomouStuff选择Qumulo提供自动驾驶汽车存储解决方案

    经过企业验证的混合云文件存储的领导者 Qumulo 宣布已与领先的自动驾驶技术提供商 AutonomouStuff 合作,为正在革新高级驾驶员辅助系统(ADAS)和自动驾驶汽车的客户提供高级存储解决方 ...

  • 五六年级孩子写的颜真卿赞、辛弃疾赞

    在读完一篇有关颜真卿和一篇有关辛弃疾的文章之后,让五六年级的孩子当场用20分钟左右的时间,写一篇200字的颜真卿赞和辛弃疾赞,对他们来说,是一种很好的阅读检测和写作训练. 选了两篇,发在下面,略有改动 ...

  • 数据中心存储解决方案市场将迎来快速增长

    数据中心存储解决方案主要用于管理数据中心内的所有资源.该解决方案包括硬盘驱动器.备份管理软件和网络技术.此外,还包括管理数据存储和检索整个过程的存储策略和过程. 发展中国家中智慧城市项目的建设不断增加 ...

  • 【转发 】BIM建筑工作站及存储解决方案(一)

    发挥BIM效能的两种最佳定制手段 XASUN定制工作站.服务器通过对行业应用软件分析和设计特点,借助最新IT技术打造可靠性高.性能优异.价格低廉的.为设计者的应用量身定制的高效的图形工作站和存储服务器 ...

  • 客户变“刁”了?你家文旅盘可能需要这套闭环资管解决方案升个级

    作者:杨凡 受疫情冲击,文旅地产迎来大震荡.当"营销为王"再难奏效,唯有闭环资管解决方案加持,才能带动行业营销/销售体系全面升级. 01 一次意外的"客串"销售 ...

  • 安防监控升级到AI加持的智慧视频监控后,存储解决方案有哪些不一样?

    电子发烧友网报道(文/程文智)近几年来,云计算.物联网及人工智能等新兴技术不断驱动全球数字化经济的飞速增长,智慧视频领域也得到了蓬勃发展.根据IDC的预测,到2025年,全球视频安防摄像头市场规模将从 ...

  • 太空探索,PB级海量数据怎么处理?

    天文学家正着手运用AI技术构建新工具,希望在太空探索中获得新的重大突破. 来源丨TheNextWeb 编译丨科技行者 天文学的核心在于数据.随着我们对宇宙的理解愈发深邃,我们掌握的信息也越来越丰富.而 ...

  • 未定级老师写课题能否通过评审

    未定级老师写课题能评审通过吗?老师写课题能不能评审通过,主要看写的课题是否和课题立项标准相符有关,相符就评审通过,反之就不通过.而与写作人是不是未定级无关. 未定级老师,是指尚未有职称等级或低于初级职 ...