写作
进入21世纪后,人类世界的数据信息急剧增加,目前全世界每天邮件、照片、推文、视频等数字文件超过250万g,全世界总数字文件达到10万亿g。 这些数据大多存储在巨大的数据中心,在10亿克的大数据中心中,有好几个足球场,建设和维护成本高达10亿美元。
随着数据量的增长,未来基于传统硅基存储介质的存储方式将不可避免地陷入资源枯竭的困境。 因此,开发新的存储技术变得尤为重要。
在数据存储的发展方向中,DNA存储技术是一个极具吸引力和前景的选择。 众所周知,DNA是自然生物保存遗传信息的载体——,可以在细胞核尺度的空间中保存一个物种的所有遗传信息。 保存在DNA中的数据密度高得难以想象,装满DNA的咖啡杯足以保存全世界所有的数据。 然后,一旦合成这些保存用DNA,它就不再消耗任何能量,可以永远保存。
迄今为止,科学家已经证明可以在DNA上写入图像和文本文件,虽然这项技术在持续发展,但离真正的普遍应用还有很长的路要走。 一个重要的挑战是如何从大量的DNA档案中快速识别和检索文件。 毕竟,保存文件后,必须能够找到并读取。
2021年6月10日,麻省理工学院的Mark Bathe等人在Nature子刊Nature Materials期刊上发表了《RandomaccessdnamemoryusingBooleansearchinanarchivalfilestorage》,内容为: Randomaccesssdnamemoryusingbolearchinarchinarchi
研究小组将图像和文本编码为DNA进行保存,将各数据文件封装到直径6微米的二氧化硅粒子中,成功用可以显示内容的短DNA序列进行了标记。 通过这种方法,可以迅速准确地识别检索保存的DNA数据文件。
数字存储系统将文本、照片、视频或其他信息编码为一系列0和1进行存储。 同样地,DNA通过四个核苷酸a、t、g、c保存遗传信息。
实际上,DNA可以用于存储任何数字信息。 我们可以用g和c表示0,用a和t表示1。 数据存储密度远远超过了传统的数据存储技术,存储规模远远超过了现有最大数据中心的容量。 直觉上,1立方厘米的DNA储存的数据信息比1兆张CD还要多。
DNA存储技术的独特优势——具有极高的存储密度和容量
除了具有非常高的记忆密度和容量外,DNA还具有其他一些特性,它已经成为理想的存储介质。 DNA非常稳定,合成和排序相当容易(但是现在很贵)。
以前,科学家证实了使用DNA保存数据的可能性。 例如,2012年,哈佛大学的“精明之夜”(传统虾脊兰Church )在Science期刊上发表了论文【2】,将自己大小659kb的书保存在DNA中,导入大肠杆菌进行复制。
事实上,目前DNA保存数据的大小主要受DNA合成成本的限制,这也是DNA保存的主要障碍之一。 根据目前的DNA合成成本,要在DNA中储存100万克的数据,将需要惊人的1万亿美元的成本。 要知道,2020年全球GDP达到1万亿美元的国家也只有16个。
这意味着,要与目前主流的存储技术竞争,需要将DNA合成的成本降低约6个数量级。
/p>
但该论文的通讯作者 Mark Bathe 表示,预计这种成本下降在一二十年内就会实现,类似于过去几十年在闪存上存储成本的下降速度。DNA 合成和测序技术的最新进展不断降低写入和读取 DNA 的成本,这预示着基于 DNA 的存储技术在不久的未来将极具商业竞争力。
除了成本高昂之外,使用 DNA 数据存储数据的另一个主要瓶颈是存储后难以从大量文件中快速检索并挑选出想要的文件。
假如将来已经实现了超低成本的 DNA 合成,达到了在 DNA 中写入 10 亿G级别的大规模数据,这时候面临的问题是,如何从中找到想要的文件?
传统上,我们通过 PCR 从 DNA 库中找到特定的序列,但对于上述大规模 DNA 数据,这无疑是大海捞针。
为了解决这个问题,Mark Bathe 领导的研究团队开发了一种检索技术,能够实现快速、准确地检索储存在 DNA 中的数据文件。
研究团队将 DNA 文件封装到直径仅 6 微米的二氧化硅颗粒中封装大约存储 1G 数据的 DNA 文件,每个二氧化硅颗粒中可,每个二氧化硅颗粒标有与文件内容相对应的单链 DNA 条形码。
接下来,研究团队验证了上述方法的可行性,他们将狮子、老虎、猫、狗、香蕉、飞机等等 20 个不同的图像编码到大约 3000 个核苷酸长度的 DNA 片段中,相当于大约 100 B。
每个文件都标有与“猫”或“飞机”等标签相对应的条形码。当研究人员想要提取特定图像时,只需添加与他们正在寻找的标签相对应的引物,就能快速找到对应的文件,并进行读取,这种方法不会损坏 DNA 文件。
研究人员使用了来自哈佛医学院 Stephen Elledge 教授开发的 100000 个序列库中的单链 DNA 序列,每个序列长约 25 个核苷酸。如果在每个 DNA 文件上放置两个这样的标签,可以对 100 亿个不同的文件进行唯一不重复标记,如果每个文件上有四个标签,则可以唯一不重复标记 1 万亿亿个不同的文件。
通过这种方法,研究团队实现了每秒 1 KB 的搜索检索速度,目前来看,这一速度仍然太慢,但研究团队表示,现阶段这种方法可以用于存储那些需要长期保存但不经常访问的数据。
Mark Bathe 实验室还成立一家名为 cache DNA 的初创公司,致力于开发基于 DNA 的永久存储技术。
您能想象将来有一天,我们会把所有数码照片、文档、音频、视频以及其他文件都存储在 DNA 中吗?
论文链接:
https://www.nature.com/articles/s41563-021-01021-3
https://science.sciencemag.org/content/337/6102/1628.full