重复数据删除:块级技术VS.字节级技术

 重复数据删除技术能够识别重复的数据,消除冗余,减少需转移或存储的数据的总体容量。在本文中,我将分别对这两种技术加以评论。与块级技术相比,字节级删除技术对数据的检查更加细微,精度更高,但同时需要更加了解备份流,才能完成任务。

块级技术

块级重复数据删除技术将数据流分割成块,检查数据块,并判定之前是否碰到相同的数据块(通常对每个数据块执行散列算法,形成数字签名或独特的标识符)。如果数据块是唯一的,就被写入磁盘,其标识符也存入索引中;否则,仅存入指针,指向存储相同数据块的原始位置。这种方法用小容量的指针替代重复的数据块,而不是将重复数据块再次存储,这样就节省了磁盘存储空间。

块级技术的缺点为:1)利用散列算法计算独一无二的ID,可能产生错误;2)将唯一的ID存入索引中,当索引扩大,需要磁盘I/O时,检查过程就会变慢(除非控制索引大小,在存储器中完成数据比较工作)。

利用散列算法判断重复数据时,散列之间的冲突可能引发错误。MD5、SHA-1等散列算法都是针对检查的数据块,形成唯一的编码。虽然有可能发生散列冲突和数据损坏,但几率较小。

字节级重复数据删除

从字节级别上分析数据流是重复数据删除的另外一种方法。将新数据流和已存储的数据流挨个比较字节,能够实现更高的精度。使用这种技术的重复数据删除产品具有一个共同点:可能之前已见过流入的数据流,因此就会检查其是否与之前接收的数据相符。

采用字节级技术的产品通常能“识别内容”,也就是说,供应商对备份程序的数据流执行了逆向工程,从而了解如何检索文件名、文件种类、日期/时间戳记等信息。在判断重复数据时,这种方法能够减少计算量。警告呢?这种方法通常在后处理阶段发挥作用——备份完成后,判断备份数据是否重复。因此,需要备份整个磁盘的数据,必须具有磁盘缓存,才能执行重复数据删除过程。而且,重复数据删除过程可能仅局限于某个备份组的备份数据流,而不是应用到整个备份组中。

完成了重复数据删除过程后,字节级技术能收回磁盘空间。在收回空间之前,应执行一致性检验,以保证删除重复数据以后,仍能满足原始数据的目标。保留最后一次的完全备份,这样恢复过程就不必依赖重构后的数据,加快恢复过程。

哪种方法效果最佳?

块级和字节级删除技术都能优化存储容量。针对你的备份环境及其需求,核定执行删除过程的时间、位置和方法,然后再决定选择哪种方法。核定内容还包括:参考那些与你的公司具有相似特征和需求的公司。

 作者:佚名

 

来源:51CTO

时间: 2024-09-19 09:16:48

重复数据删除:块级技术VS.字节级技术的相关文章

企业级大数据备份:十问重复数据删除技术

仅仅在几年以前,重复数据删除还是一个独立的功能,重复数据删除为企业备份和归档部门的存储系统提供另一种选择.同时也在云端网关找到了新的用途,当数据进入阵列或虚拟磁带库之前过滤掉不必要的数据块.现在,它已经成为统一计算系统预先集成的功能.而了解如何更有效的使用这项技术成为一种需求.于此同时IT经理应该重新审视存储问题并询问为其提供存储的供应商. 1. 重复数据删除技术对备份性能将产生什么影响? 对于业务成倍增长的大型企业来说高性能是至关重要的.同时企业还需在有限的备份环境内确保海量数据备份环境的安全

基于重复数据删除的虚拟桌面存储优化技术

近年来,云计算已成为分布式计算领域中的研究热点,它是指运行在数据中心软硬件上的应用通过Internet为用户按需提供服务:并将数据中心内的软硬件资源统称为云,云计算自身并不是一种新技术,而是一种新服务模式.这种模式能够将设备安装和资源管理外包给云服务商,具有按使用计费和扩展灵活的特性,通过对IT资源的统一部署与集中管理,云计算能够优化资源的利用率,为用户提供廉价.高效.可靠的服务. 虚拟桌面作为一种典型的云计算应用,是建立在服务器虚拟化基础上的云应用.如图1所示,虚拟桌面基础架构在云中为用户提供

哪些企业适合采用重复数据删除技术

随着企业对数据安全的重视程度加强,适合企业不同特性的从存储备份方案也应运而生.重复删除技术就是其中的一种.在这篇中就跟大家谈谈,什么样的企业适合采用重复数据删除技术. 一.数据量大.且冗余大的企业适合使用重复数据删除技术. 在对企业的信息化数据进行存储与备份时,超大的容量一直是项目管理员比较头疼的问题.有不少企业,可能一年就需要升级一下存储设备的容量.在这种情况下,采用重复数据删除技术能够起到一定的效果. 通常情况下,当企业的数据量越大,备份数据中所包含的冗余部分也就越多.虽然说增量的http:

重复数据删除技术疑问集锦

问:关于重复数据删除产品,我想问的是基于软件的重复数据删除和基于硬件的重复数据删除哪个更好了,它们各自的优缺点是什么了? 答:基于软件的重复数据删除旨在消除源的冗余,而基于硬件的重复数据删除强调存储系统本身的数据削减.虽然基于硬件的重复数据删除无法提供带宽补偿,而在源中进行重复数据删除中有可能获得带宽补偿,但是基于硬件的重复数据删除的压缩级别通常会更高,并且基于硬件的重复数据删除产品需要的维护更少. 硬件重复数据删除设备以它们的高性能.可扩展性以及相对不间断的部署而备受关注.正常情况下,备份软件

磁盘及重复数据删除技术推动云存储

在接下来的两年里预计存储在第三方云存储中的数据会有4倍的增长,而存储在离线磁带介质中的数据预计到2012年则会减少三分之一. 磁盘以及重复数据删除技术推动了云的使用 无穷无尽的数据增长使得人们不得不使用基于磁盘的备份来缓解备份窗口过短的压力,从而释放更多的资源来执行更大的备份任务.而越来越多的能够提高存储利用率的技术比如重复数据删除,也从侧面推动了基于磁盘备份方式的普遍应用.那么,这些趋势如何影响人们对云备份的兴趣呢? 随着IT组织越来越多的采用磁盘备份来降低对磁带的依赖度,将数据以电子的形式保

重复数据删除技术的几个产品

不久以前,重复数据删除领域还只有几家初始公司,比如Data Domain.过去五年来,这个技术不断发展壮大.现在,几乎所有大厂商都在使用重复数据删除技术. 如果你想采用这项技术的话,下面这几个产品值得留意. 1. Quantum DXi8500 Quantum的DXi系列内置重复数据删除功能的磁盘系统包含几个产品.例如,DXi8500针对的是企业范围的备份.灾难恢复和数据保护.它提供高达6.4TB/小时的备份性能和至多200TB的可用容量. Quantum企业磁盘系统产品经理Mike Spark

如何使用重复数据删除技术实施主存储优化

主要文件系统存储优化(也就是在同样的空间塞进更多的数据)继续在日益普及.这里的挑战是主存储的重复数据删除并不是没有规则的.你不能删除这个重复的数据,也不能删除那个重复的数据,你必须要认识到删除重复数据之后对设备性能的影响. EMC已经宣布了在自己的Celerra平台上删除重复数据的功能.NetApp使用这个功能已经有一段时间了.其它厂商也以积极的方式增加这个功能,其方法是在数据不流动之后对数据进行压缩和删除重复数据.然后,Storwize等公司一直以在线实时压缩的方式提供这种功能. 正如存储虚拟

Attic - 拥有重复数据删除技术的备份软件

<iframe style="width: 170px; height: 30px;" src="http://ghbtns.com/github-btn.html?user=netkiller&repo=netkiller.github.com&type=watch&count=true&size=large" frameborder="0" scrolling="0" width=&q

重复数据删除技术在备份中的应用体会

   2007年底,熊猫电子集团选择EMC Avamar重复数据删除技术,建成了同行业中领先的数据备份系统.目前,这一技术已经在熊猫电子成功应用近一年了.在此介绍我们的应用经验,希望可以给国内同行提供有益的启示. 数据对熊猫集团的意义 南京熊猫电子集团创始于1936年,是一家具有70多年历史的国有综合性大型电子信息企业.1996年,熊猫集团控股的南京熊猫电子股份有限公司分别在香港联交所和上海证交所上市,成为国内电子行业第一家拥有H股的上市公司.南京熊猫电子集团下设家用电器产业集团.机电仪产业集团