专家博客:永流传的石碑与易丢失的数字档案

本文作者Henry Newman是一位行业顾问,在高性能计算服务和存储领域有着28年的从业经验。

我与拙荆曾在去年秋季在纽约中央花园看到一块有着近4000年历史的埃及方尖石碑,石碑保存得相当完好,碑文清晰可辨。

当我们惊诧于这个考古学上的奇迹时,我的妻子不禁脱口而出:"石碑不需要被备份!"

幸运的是,除了Rosetta计划之外,现在再也没人将数据备份到石头上了。但是我妻子却提出了一项重要的观点,那就是电子数据存储和保存引发了许多技术问题,那是古人从未考虑过的。试想一下,别说千年之后,就说10年之后再尝试去读取备份磁带、归档DVD或Word旧文档会是一种什么样的景象? 电子数据存在着格式、迁移和数据完整性等问题,硬拷贝是不存在这些问题的,但是它们也有着自己的保存问题,这一点你可以向考古学家和文档保管专家咨询。

在某些方面,埃及人所使用的简单方法比我们记录和保存信息的方法要好得多。对比一下保存完好的方尖石碑以及你认为保存得很好但现在却无法再读取那种格式的5寸软盘、8轨道磁带和老式录影带,你就可以清楚这一点。 我们所用的软盘、磁带和录影带能够保存3500年的时间吗?

继岩石之后,人类后来又在动物皮和草纸上书写文字,这些媒介很方便书写,但是却保存不了多久。纸张和印刷机就更快了,但是磨损的速度也更快。你是否已经看出了其中的规律? 我们现在使用的电子记录大概可以保存10年的时间。因此,如何记录和记载历史就成为一项越来越艰巨的任务,因为每一代媒体都必须以越来越快的速度被转移到下一代媒体上,否则我们可能会失去许多重要的记录。

人类在10到15年前选择的媒体是纸。以前,数字存储设备的价格太昂贵了。 如今,我们几乎把所有的信息都以数字的形式进行保存,家庭照片、音乐、电影、病历、文档、电子邮件等个人通信记录等等不一而足。但是我们现在构建的这个数字世界对于未来而言也存在许多重要问题,比如格式、框架、界面和数字完整性等等,这些问题都必须经过标准化处理得到解决,那样我们才能更好地将数字记录保存和传递下去。 保存历史就全靠它们了。

元数据框架

首先,我们需要为文件元数据、备份和归档信息建立一个标准化框架。

我们需要一个可以在不同系统之间转换和保存元数据的框架。有些家庭文件系统有多种添加元数据的方法,但是它们不能在各种操作系统之间转换。 当你在苹果、微软和Linux等不同的操作系统之间进行转换时,你只能得到基于POSIX的信息。这还不足以添加元数据。 如果发生灾难怎么办? 这种信息能不能转换到备份设备之中? 各种转送协议如FTP、NFS和CIFS等都不能在不同的系统之间转换元数据。对于微软来说,大部分辅助设备采用的格式都是FAT文件格式,而不是NTFS格式,而FAT格式是不支持NTFS格式在支持元数据时所具有的某些功能的。 对于企业来说,各个厂商提供的要么是版权框架,要么是将所有数据都放在一个用来访问文件系统或管理存储空间的数据库中。那些框架需要配备专门的应用程序来显示和处理文件元数据。 这种解决方案不但不方便,而且保存的成本通常也很高。

存储驱动器和界面

不久之前,我们还在使用5寸软驱来备份系统,然后是3.5寸软驱和CD-ROM,现在则主要使用DVD光驱,也许今年我们就会看到蓝光刻录光驱,再过几年可能还会出现别的新东西。Windows和Mac系统是否支持这些设备呢?

同期,对于企业来说,我们拥有ER-90s、Redwood、9940A、9940B、DLT和许多其他的技术。唯一一种能够长期支持企业应用的技术似乎是大型机所用的3480和3490磁带驱动器。连接这些技术的渠道的情况似乎也是如此。SCSI-FW、FC-AL,甚至FC-2又如何呢? 这些通信界面都已经结束服务了,即便它们现在还可以用,现在的操作系统是否还有支持它们的驱动器呢? 如果驱动器出现一个需要修复的漏洞会怎么样呢? IBM会专门针对大型机来解决问题,但是不会考虑普通的、开放系统企业环境,因为这不但很难,而且代价太高。

显然,随着技术的进步,你必须迁移你的旧数据。当然,现在不需要用岩石来备份了。 你只要了解岩石记录所用的语言就可以了,我们已经能够了解几乎所有的书面通信形式。

数据完整性

就象蹩脚的语言翻译一样,由于成本太高的原因,现代数据完整性很难得到保证。有些文件系统和存储管理框架如ZFS和Hadoop也许可以验证数据的完整性,但是这些解决方案对于普通家庭用户来说似乎太遥远了。 而象闪存那样的候选方案要么解决不了问题,要么存在着其他一些问题。虽然磁盘驱动器的密度在过去的15年里大幅增加,但是它们的硬错误率却基本没有发生变化。 这种硬错误率是指,不管是企业级还是消费级磁盘驱动器都可能出现故障,并最终导致数据丢失,而且用户还要花费大量的时间来重建系统。你可以增加硬件和减少类似故障的发生率,但是这些问题无法从更根本上得到解决。 你可以花大量的投资来解决这个问题,你可以建立一套可靠性非常高的归档档案,但是即便是企业用户,也不是人人都能负担得起相应的成本。

显然,即便是今时今日,岩石仍然有着一定的优势。如果出现设备故障,那么读取其中的电子数据就要求具备专业的知识,甚至具备了专业的知识,可能还是会丢失其中的许多数据。

数据格式

有没有人试着用Word 2007去打开一个1990年时建立的Word文档? 我们都知道所有的文件格式的寿命都是有限的。有些格式如PDF的寿命可能会较长,有些格式的寿命可能会较短,但是没有一种格式的寿命是无限的,而且那些格式可以很快发生变化。我们没有改变和转换格式的框架。在Windows系统下,你可以通过扩展名来识别文件类型,但是它也可能会出现误导。在Mac OS系统下,每一个文件都有自己的元数据,不能转换到Windows系统;在unix系统下的情况也是如此。 另一方面,岩石只存在着与我们今天所面临的问题相同的语言翻译问题。

我妻子并未从事数据存储行业的工作,但是她显然知道数字资料管理比以前的信息管理更为复杂。数字资料管理的概念、技术和标准到现在都还没有成型。我不知道现在是否有人能够解决这些问题,但是如果标准团体不能解决这个问题的话,那么对于我们长期管理数据是没有什么帮助的。许多数据就会开始丢失,这只是一个时间问题。 几千年之后,那时的人会如何看待我们现在的情况? 如果我们想为后代留下方尖石碑,那么我们最好现在就开始这么做。

时间: 2024-10-30 09:32:56

专家博客:永流传的石碑与易丢失的数字档案的相关文章

专家博客 云计算数据需要第三方保障

本文讲的是专家博客 云计算数据需要第三方保障,[IT168 资讯]云计算与云存储供应商都有某种形式的SLA(服务水平协议).我们都希望他们购买高质量的后端存储平台来存储数据,并希望他们采取合理的措施来保护这些数据.但是我们怎么知道他们的情况呢?我们需要第三方服务来提供保证. 如果你使用的软件即服务提供商的服务,那么这个问题尤其应当重视.例如,如果你通过一个提供商来托管你的CRM(客户关系管理)或财务软件,那么如果他们某一天突然提高报价,你该怎么办?和通常的想法不同,你不能简单地关闭服务并寻找下一

专家博客被诉侵权:一次点击索赔一元

本报讯(记者袁京)认为营销专家秦全耀的博客上发布了涉嫌有辱公司产品的内容,一悠一悠减肥泡腾片生产厂家北京安格德科技发展有限公司以名誉侵权为由,将其告上法庭,要求删除博文,并按一次点击一元钱的标准赔偿经济损失42699元.朝阳法院昨天已受理立案. 5月6日,秦全耀陆续在新浪.和讯网等个人博客中发表博文,文中有"一悠一悠减肥泡腾片在产品起名上只能被称为败笔,还真不如索性当回流氓改称'忽悠忽悠减肥泡妞片'"等内容.原告安格德公司认为,博文在内容上严重损害了产品及企业形象,有明显侮辱性.公司负

专家博客:全面解析云计算标准化现状

[导读]已经有越来越多的专家看到缺乏云计算标准将会无形中阻碍到人们接受云计算,这主要源于对云供应商锁定用户的担忧和对不同云计算之间虚拟机与数据迁移的无助. 已经有越来越多的专家看到缺乏云计算标准将会无形中阻碍到人们接受云计算,这主要源于对云供应商锁定用户的担忧和对不同云计算之间虚拟机与数据迁移的无助. 如今,仅有云计算标准--Open Virtualization Format(OVF).它是由VMware为促进虚拟机可移动化所推出的--但是单单只有它的存在是不能从根本上解决云计算互操作上的问题

专家博客:概述五步实施云存储服务

  云存储不是存储,而是服务:就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体.使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务.所以严格来讲,云存储不是存储,而是一种服务. 云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变. 云存储服务的五步实施包括: 1. 集中化IT管理,以便获得规模经济性,更好地理解成本并控制IT服务. 2. 根据主要的

专家博客:简要概述五步实施云存储服务

云存储不是存储,而是服务:就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体.使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务.所以严格来讲,云存储不是存储,而是一种服务. 云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变. 云存储服务的五步实施包括: 1.集中化IT管理,以便获得规模经济性,更好地理解成本并控制IT服务. 2.根据主要的业务要求

专家博客: 云计算中存储必备的9大要素

[导读]典型的数据存储和管理的"企业级特征"在IT架构创新上不断推成出新.存储架构师意识到这些特征对于关键业务和生产应用非常重要,但目前的云计算还缺乏这些特征. 在最近对云计算的所有关注中,存储更多地被视为基础平台.时至今日,许多云计算提供的仅仅局限于CPU内核的集合,定量的内存分配,低转速存储,或者还有一些面向互联网的IP技术.近来,出现了有趣的与云计算和存储相关的高级技术,特别是使用Web Services访问方式,使得访问存储不再受限于设备文件或者NFS加载点. 典型的数据存储和

行业门户如何做“博客”蛋糕

中介交易 SEO诊断 淘宝客 云主机 技术大厅 行业门户现在渐渐形成一种门户的细化发展趋势,她是从综合门户慢慢地剥离出来.所以,行业门户如果要做"博客"蛋糕的话,不能沿袭传统综合门户推出的博客经营管理模式.综合门户应该是种杂合型的,有点像大杂荟,凡有内容必定收录.而且,很多时候也喜欢盲目地追求点击量或浏览量,打一些擦边球.c2cc是后来者,但纵观全局,有的行业门户没有能够重视博客所潜藏的丰富资源,或者有的行业门户并没有把博客当作一个新产品来经营,所以收效甚少.所以,c2cc如果能够找到

博客的神话,真实的谎言

博客圈流传诸多博客的神话,即所谓的博客成功之道,但其中绝大多数是那种如果你遵循而行之后会导致新博客以死告终的真实的谎言.然后,许多新博主却沉迷在这些博客神话中不可自拔,他们不但深信不疑并且还严格地执行,因为这些博客之道可能是他们从一些令人尊敬和钦佩的老博主那里听来,但按部就班的结果却是让他们在挫折和迷茫之中选择了关闭博客,因为他们从来没有从坚持这些博客之道的努力之中取得任何用用的结果. 笔者(注:Onibalusi Bamidele,Young Entrepreneur Blog的博主)有一个还

博客的神话 真实的谎言

博客圈流传诸多博客的神话,即所谓的博客成功之道,但其中绝大多数是那种如果你遵循而行之后会导致新博客以死告终的真实的谎言.然后,许多新博主却沉迷在这些博客神话中不可自拔,他们不但深信不疑并且还严格地执行,因为这些博客之道可能是他们从一些令人尊敬和钦佩的老博主那里听来,但按部就班的结果却是让他们在挫折和迷茫之中选择了关闭博客,因为他们从来没有从坚持这些博客之道的努力之中取得任何用用的结果. 笔者(注:Onibalusi Bamidele,Young Entrepreneur Blog的博主)有一个还