用DNA实现无错数据存储

用DNA">存储数据,这已经不是不可能实现的任务。我们之前为大家介绍过哈佛大学在DNA存储方面的工作,他们将700TB的数据存进了仅仅1克DNA之中。关于DNA存储的研究也不断地有着新进展,不久前,欧洲分子生物学实验室(EMBL)的研究人员创造了一种新的DNA存储数据方法,通过这种方法,他们克服了DNA存储易出错的问题,并且数据的存储时间可达成百上千年。这个新方法于1月23日在《自然》杂志上发表,文中表示,用这种方法存储1亿小时以上的高分辨率的视频,只需一小杯DNA即可。

现如今,全世界的数字信息量实在是太庞大了,大约有3Zb之多(相当于3*10^23个字节),而且还在不断大量涌入新的数字信息,这是数据存储所面临的一道难题。大容量的硬盘很贵并且需要持续的电力供应,就算是最好的“无电”归档材料,例如磁带,也在几十年内便会降解失效。而这在生命科学领域也成为了一个日益严重的问题,因为大量的数据(包括DNA序列)也是科学记录的重要部分。

“我们都知道DNA是一种很稳定的存储信息的介质,因为我们可以从千万年前的猛犸象的骨头里提取DNA,可见它能保存非常长的时间。”欧洲分子生物学实验室的尼克·高曼(Nick Goldman)解释道,“而且它非常小,密度又非常高,存储起来还不需要任何电力支持,所以运输和保存都很容易。”

尼克·高曼与他合成出来的人工DNA。图片来自EMBL

读取DNA的工作很简单,但是如何准确地写入数据仍然是实现DNA存储的主要障碍。目前研究者主要面临两个困难:第一,使用现在的方法只能制造出一小段DNA;第二,DNA的读写都非常容易出错,尤其是在大量相同的字符被编码进DNA时。而尼克·高曼和同事伊万·伯尼(Ewan Birney)想出了一种方法,克服了上述问题。

“我们只能使用较短的DNA序列来进行编码,但这种编码方式又会产生大量的相同字符串。所以我们就想,干脆就将编码分开成两个方向的若干个重叠的碎片,每个都搭载有索引信息,这样可以显示出每个碎片是属于整个代码的哪一段,这样就设计出了一个不允许重复的编码方法。利用这种方法,数据只有在四个碎片上出现相同的错误才会读取失败,而这种情况又是非常罕见的。”伊万·伯尼说道。

新的方法需要从编码信息中合成DNA,加利福尼亚州的安捷伦科技公司为研究者们提供了合成设备。伊万和尼克将一段经过DNA编码后数据寄给了安捷伦公司,其中包括一个马丁·路德·金《我有一个梦想》演讲的mp3文件,一张欧洲分子生物学实验室的jpg格式照片,一篇开创性论文《核酸的分子结构》的pdf文档,一首莎士比亚十四行诗的txt文件和一份编码的描述文件。

“我们从网上下载了这些文件,然后用它们合成了成百上千段DNA,最终合成得到的东西就像一小团灰尘,”安捷伦公司的艾米丽博士说道。她将样本寄回了实验室,那里的研究者将DNA排序后就可对其进行无错译码。

“我们以分子形式(即DNA)创造出了一种具有高容错能力的编码方式,而且这种存储方式在合适的条件下可以存放一万年,甚至更久,”尼克说道,“只要有人知道这些编码是什么,再有一台可以读取DNA的机器,他们就可以知道其中的内容了。”

虽然还有很多实际问题需要解决,但是DNA的这种高密度和持久性使得它成为一种非常吸引人的存储介质。未来研究者将进一步完善编码方案,探索实际问题,为DNA存储的商业化铺好道路。

(责任编辑:蒙遗善)

时间: 2024-08-01 21:07:46

用DNA实现无错数据存储的相关文章

DNA:终极数据存储方式

http://www.aliyun.com/zixun/aggregation/17197.html">北京时间8月18日消息,据国外媒体报道,在谈到信息存储时,硬盘完全不能和DNA相提并论.在人类的基因序列中,1克的重量就可以包含几十亿GB的数据,而1毫克分子的信息存储空间就可以包含美国国会图书馆全部的书籍,并且还有剩余.在过去,这些只是理论上的概念.现在,最新的一项研究表明,研究人员可以把一部遗传学教科书的内容存储到1微微克(picogram,相当于万亿分之一克)DNA中,这一技术上的

一屋子DNA装下全世界 DNA数据存储新法问世

研究人员创建了一种在DNA中存储数据的新方法.图片来源:Novi Elisa/shutterstock 人类正面临着一个数据存储的问题--全世界在过去两年中产生的数据比之前的数据总和还要多,并且这种信息迸发的趋势很快就将超过硬盘能够承载的能力.如今,研究人员报告说,他们想出了一种新的方式将数据编码进脱氧核糖核酸(DNA),从而创造出迄今最高密度大规模数据存储方案. 在这套系统中,1克DNA具有存储215拍字节(2.15亿千兆字节)的能力.原则上,它可以将人类有史以来的所有数据存储在一个大小和重量

企业如何面对数据存储危机

Industry Outlook是一个介绍有关数据中心和IT的市场趋势,技术和其他问题的专家观点的数据中心行业媒体. Industry Outlook日前与Peter Godman探讨了数据的爆炸式增长以及企业如何管理数据等令人关注的问题.Peter Godman是通用级文件存储供应商Qumulo公司的共同创始人和首席技术官,主要工作是指导产品开发和管理,在分布式文件系统和高性能分布式系统方面具有丰富的专业知识. IO:目前企业在数据方面面临的最大挑战是什么? PG:数据正在爆炸式增长,每两年翻

数据存储技术取得突破,存储数据需“开源”更需“节流”

日前,IBM研究团队成功地通过"孤立原子"(solitary atom)的方式创造出了全世界最小的磁体.具体的思路是,现有的数据存储技术及硬盘在存储数据时,大多需通过磁头磁化磁层上的介质,每存储1bit数据大约需要10万粒原子,而IBM通过"孤立原子"的方式,使数据存储的硬盘体积缩小了1000倍. 对此,该团队在<自然>(Nature)杂志上发文称,这一突破将为人类带来令人兴奋的全新数据存储系统. 如今,移动计算和云计算飞速发展,全球数据量随之猛增.数据

数据存储需求不断增加 不止局限于技术上的开源

随着高清摄像机的快速普及和推广,数据呈现爆发式增长,而相关法律的出台(如<中华人民共和国反恐怖主义法>和<关于人民法院诉讼档案保管期限的规定>规定资料长周期保存)又成为有力的市场推手,加速了数据的暴增程度,对海量存储空间的需求为存储厂商带来了前所未有的良好机遇.目前物理介质存储器在存储密度.体积和成本的平衡方面已经达到瓶颈,传统的企业存储策略已无法跟上企业数据迅猛增长的节奏.数据存储技术有什么突破?我们真的需要将所有的数据都永久保存吗?或许对于数据存储,人类要做的不只是技术上的&q

MySQL更改数据库数据存储目录

MySQL数据库默认的数据库文件位于/var/lib/mysql下,有时候由于存储规划等原因,需要更改MySQL数据库的数据存储目录.下文总结整理了实践过程的操作步骤.   1:确认MySQL数据库存储目录 [root@DB-Server tmp]# mysqladmin -u root -p variables | grep datadir   Enter password:   | datadir | /var/lib/mysql/     2:关闭MySQL服务 在更改MySQL的数据目录

基于云上分布式NoSQL的海量气象数据存储和查询方案

前言 气象数据是一类典型的大数据,具有数据量大.时效性高.数据种类丰富等特点.气象数据中大量的数据是时空数据,记录了时间和空间范围内各个点的各个物理量的观测量或者模拟量,每天产生的数据量常在几十TB到上百TB的规模,且在爆发性增长.如何存储和高效的查询这些气象数据越来越成为一个难题. 传统的方案常常采用关系型数据库加文件系统的方式实现这类气象数据的存储和实时查询,这种方案在可扩展性.可维护性和性能上都有一些缺陷,随着数据规模的增大缺点越来越明显.最近几年,学界和业界开始不约而同的转向利用分布式N

游戏排行榜的数据存储问题

问题描述 游戏排行榜的数据存储问题 游戏排行榜数 存数据库还是存文件 如果存数据库 表的结构是怎么样的 还有更新回写的逻辑是怎么样的 求告知. 解决方案 存数据库,用户名.积分.对用户名列做索引. 解决方案二: 你指的是哪个端的数据保存?是手机端,还是服务器端? 如果是手机端,存文件和存数据库差不多. 我自己做的一个小程序的想法是,文件搭配时间戳. 手机端第一次请求排行榜信息的时候,服务器把排行榜数据(比如JSON数据)和该数据的时间戳传回来,手机端把数据存在本地文件里. 手机端再次请求排行榜,

基于flex4技术从零开发flex博客系统:4 数据存储

通过前三课我艰苦卓绝的努力,客户端与服务端通讯已经没有问题了.这对于一个没有学过flex4,没有用过java的初学者,已经相当不容易了.到目前为止,开发博客系统的准备工作,已经仅剩最后一项了:数据存储. Google App Engine没有数据库的概念,不过app engine提供了JDO存储接口,google充许开发者直接定义.存储.查询.修改实体(entity). 一,数据定义 我在sban.flexblog package下添加一个名为Greeting的实体类,这个一个POJO(Plai