随着文明的不断发展,人类产生的数字数据量也越来越多,无论是你向好朋友发送一条微信消息,还是在视频网站观看一条视频,或是在某个404网页进行词条搜索,这些行为无时无刻不在产生数据,导致现在的储存压力很大,而随着5G时代的到来,互联网上的数据量将成几何倍增长。
据软件公司Domo对2018年全球产生的数据统计显示,平均一分钟内,人们进行了388万次的谷歌搜索;在youtube上观看了433万次视频;发送了1.59亿封电子邮件;而到2025年,预计每人每秒将产生1.7兆字节的数据,假设全世界人口为78亿,这意味着一年内将产生约418万亿GB的数据,需要4180亿TB的硬盘才能存下来。
这是个什么概念呢?平均来说,相当于全世界每个人都能分到约53TB的硬盘,如果按你电脑中小姐姐电影为6GB一部来计算,大约能存下8000多部电影。
如此庞大的数据,你硬要说存呢也不是存不下,毕竟现在也是这么做的,但问题是,这种只有0和1符号的磁性或光学数据存储系统使用年限都不长,最多不会超过一个世纪。更严重的问题是,维持数据中心运转需要消耗大量的电力资源(包括冷气、机箱等),在21世纪全球节能减排的大背景下,长此以往肯定是不行的。
硬盘要爆了
于是,基于DNA的数据存储开始出现。但很多人可能会疑惑,DNA不是生物体内的一种大分子吗,怎么和计算机扯上关系了?但实际上,论数据存储,DNA才是当之无愧的第一人,它存储着地球上所有生物的遗传信息,相当于一份全生物的使用及说明手册。
不仅如此,DNA还具备结构稳定、存储容量大等特点,还是以你电脑中小姐姐电影为例,按照6GB一部的HD720p影片来计算,一克DNA中大约可以存储3600万部,相当于21.6万TB的影片容量。
此外,DNA本身是一个四字母代码的集合体,由四种核苷酸组成,包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T),它们通过两两互补的形式合成了一段双链DNA。
而科学家由此出发,将二进制计算机代码编码成了生物分子代码,使用00代表A,01代表G,10代表C,11代表T,通过测序技术(相当于硬盘读取)与合成技术(相当于硬盘写入)把DNA变成了一种新的信息载体。
不过,理论有多美好,现实就有多残酷。虽然DNA作为一种未来可期的存储方式,但它的信息写入(合成)能力实在太慢,以目前主流的“亚磷酰胺法”来人工合成DNA序列,差不多需要一秒钟才能合成一个碱基对,而以这种速度来存档文件可能要花费几十年的时间。
另外,与传统的数字系统相比,使用DNA合成写入分子存储时的错误率非常高,并且这些错误的原因还不同于数字世界,一般来说,硬盘中产生数据错误是由于二进制转换出现问题,而对于DNA来说,问题来源于碱基的自动插入和删除发生了改变,同时难以纠正。
为此,哈佛大学医学院的遗传学教授乔治·丘奇带领团队发明了一种新的DNA储存方法。他们使用了一种称为末端脱氧核苷酸转移酶 (TdT)的合成生物酶,同时运用计算机行业中的光刻技术来进行酶促反应的合成。
简单来说,这种方法不依赖于传统“亚磷酰胺法”所化学生成的模板,而是合成一节节短的DNA片段,并非完整的DNA双链,从理论上来说,这种方法产生的错误率更低,因为长度更短。而根据乔治团队发表在Nature子刊上的研究显示,他们在1.2平方毫米的阵列表面平行合成了12条不同的DNA序列,不管是错误率还是花费时间,都取得了不错的成绩。
也许在较长的一段时间内,我们依旧还是会采用硬盘存储的方式来保留数据,但随着测序技术以及合成技术的发展,这些数据可能会在一根毛发大小的集合中找到新家。