重复数据删除技术疑问集锦

问:关于重复数据删除产品,我想问的是基于软件的重复数据删除和基于硬件的重复数据删除哪个更好了,它们各自的优缺点是什么了?

  答:基于软件的重复数据删除旨在消除源的冗余,而基于硬件的重复数据删除强调存储系统本身的数据削减。虽然基于硬件的重复数据删除无法提供带宽补偿,而在源中进行重复数据删除中有可能获得带宽补偿,但是基于硬件的重复数据删除的压缩级别通常会更高,并且基于硬件的重复数据删除产品需要的维护更少。

  硬件重复数据删除设备以它们的高性能、可扩展性以及相对不间断的部署而备受关注。正常情况下,备份软件会将专用设备看作是一种一般的“磁盘系统”,并且完全不会发觉其内部正在进行的重复数据删除进程。小型企业或远程办公通常会避免使用设备,因为这些设备的费用要比用软件来实现重复数据删除的费用高,但是,它们确实是企业级部署的理想选择。

  基于硬件的重复数据删除也可能融合到其它存储(目标)平台上。例如,重复数据删除经常是VTL系统的一项功能之一。VTL系统通过使用磁盘而不是磁带进行存储,从而提高备份任务的速度,而且,添加重复数据删除使VTL磁盘使用率达到最大。在很多情况下,VTL重复数据删除是作为一种out-of-band进程来执行的。这是其一项优势,因为所有VTL的内容都可以通过重复数据删除技术以达到很好的压缩比率。不好之处在于重复数据删除不是实时的。然而,一些VTL系统在接收到备份服务器的数据之后,引入了in-band重复备份数据删除的处理能力。

  问:我听说基于硬件的重复数据删除产品中有In-band和Out-of-band两种功能,请问这两种功能的区别,哪种更好了?

  答:首先,让我讲讲基于硬件的重复数据删除产品的好处:基于硬件的重复数据删除产品能减轻与基于软件的重复数据删除产品相关的处理负担。重复数据删除功能还被融合到其它数据保护硬件中,如备份平台、虚拟磁带库(VTL)系统甚至通用存储系统像网络附加存储(NAS)等。通常这种方法并不旨在缩小备份窗口或恢复目标,但是一般而言,用户能借此达到最高的压缩级别,从而创造最大的可用存储空间。

  至于你提到的In-band和Out-of-band两种更能哪种更好,只能说各有各的优点。下面是这两种功能的区别和各自的优点:

  in-band重复数据删除在数据写入存储器时削减数据。尽管进程处理需要额外的处理能力从而可能扩大备份窗口的大小,但是in-band重复删除是有效率的,因为它只执行一次。

  out-of-band重复数据删除是在数据存储完之后执行。这种方法不会影响备份窗口的大小,并且能缓解对CPU进程处理的关注,从而避免在备份服务器和存储器之间产生瓶颈。然而,out-of-band重复数据删除在执行过程中使用稍微多一点的磁盘空间。还有,out-of-band重复数据删除需要花费的时间可能要比实际的备份窗口长。磁盘竞争是另一个问题,因为用户在重复数据删除过程期间尝试访问存储器,从而降低了磁盘性能。

      问:文件级和块级的重复数据删除技术各自的优缺点是什么?

  答:重复数据删除技术大大提升了基于磁盘的数据保护策略、基于WAN的远程分公司备份整合策略、以及灾难恢复策略的价值主张。这种技术能识别重复数据,消除冗余,减少需转移和存储的数据的总体容量。 一些重复数据删除技术在文件级别上运行,另一些则更加深入地检查子文件或数据块。尽管结果存在差异,但判断文件或块是否唯一都能带来好处。两者的差异在于减少的数据容量不同,判断重复数据所需的时间不同。

  文件级重复数据删除技术

  文件级重复数据删除技术通常也称为单实例存储(SIS),根据索引检查需要备份或归档的文件的属性,并与已存储的文件进行比较。如果没有相同文件,就将其存储,并更新索引;否则,仅存入指针,指向已存在的文件。因此,同一文件只保存了一个实例,随后的副本都以“存根”替代,而“存根”指向原始文件。

  块级重复数据删除技术

  块级重复数据删除技术在子文件的级别上运行。正如其名所示,文件通常被分割成几部分——条带或块,并将这些部分与之前存储的信息予以比较,检查是否存在冗余。

  最常见的检查重复数据的方法是:为数据块指定标识符,例如,利用散列算法产生唯一的ID或“足迹”,标识数据块。然后,将产生的ID与集中索引对比。如果ID已经存在,就说明以前曾处理并存储该数据块。因此,只需存入指针,指向之前存储的数据。如果ID不存在,就说明数据块独一无二。此时,将ID添加到索引中,将数据块存储到磁盘中。

  每个供应商检查的数据块大小各不相同。一些供应商固定数据块的大小,一些则使用不同大小的块(有一些甚至允许终端用户改变固定块的大小,这会令人更加困惑)。固定块的大小可能为8 KB或64 KB,区别在于块越小,被判定为冗余的几率越大。这也就意味着消除的冗余更多,存储的数据更少。固定块只存在一个问题:如果文件发生变化,而重复数据删除产品依然利用上次检查到的固定块,那就可能无法监测冗余部分,因为文件中的数据块已被改变或移除,而利用的固定块仍是变化之前的,剩下的比较就没有意义了。

  各种规模的块能够提高普通冗余的监测几率,尤其是在文件发生变化以后。这种方法能够监测文件中可能发生的实样模或断点,从而分割数据。即使文件变化,数据块被转移,这种方法也能发现重复的数据。不足之处呢?这种方法能改变块大小,需要供应商追踪并比较多个ID,因此会影响增大规模、增加计算时间。

  文件级技术和块级技术不仅在运行上存在差异。两种方法各有优缺点。

  文件级删除技术的效率不如块级技术的情形:

  文件内部发生变化,就会导致整个文件需要重新存储。PowerPoint报告等文件可能需要改变一些简单的内容,例如改变首页,以显示新的报告人或日期,这也会导致整个文档需要重新存储。块级重复数据删除技术只存储文件的某个版本和下个版本之间发生变化的部分。文件级技术的压缩比一般小于5:1,而块级技术能将存储的数据容量压缩20:1甚至50:1.

  文件级删除技术的效率高于块级技术的情形:

  文件级重复数据删除技术的索引非常小,在判断重复数据时只需花费很少的计算时间。因此,删除过程对备份性能的影响很小。由于索引小、比较次数少,文件级删除技术所需的处理负荷较低。对恢复时间的影响较少。块级删除技术需要利用主索引匹配数据块和该数据块的指针,从而“重新组装”数据块。而文件级技术存储的是独一无二的文件以及指向该文件的指针,因此很少需要重组。

时间: 2024-09-18 01:24:45

重复数据删除技术疑问集锦的相关文章

Attic - 拥有重复数据删除技术的备份软件

<iframe style="width: 170px; height: 30px;" src="http://ghbtns.com/github-btn.html?user=netkiller&repo=netkiller.github.com&type=watch&count=true&size=large" frameborder="0" scrolling="0" width=&q

磁盘及重复数据删除技术推动云存储

在接下来的两年里预计存储在第三方云存储中的数据会有4倍的增长,而存储在离线磁带介质中的数据预计到2012年则会减少三分之一. 磁盘以及重复数据删除技术推动了云的使用 无穷无尽的数据增长使得人们不得不使用基于磁盘的备份来缓解备份窗口过短的压力,从而释放更多的资源来执行更大的备份任务.而越来越多的能够提高存储利用率的技术比如重复数据删除,也从侧面推动了基于磁盘备份方式的普遍应用.那么,这些趋势如何影响人们对云备份的兴趣呢? 随着IT组织越来越多的采用磁盘备份来降低对磁带的依赖度,将数据以电子的形式保

哪些企业适合采用重复数据删除技术

随着企业对数据安全的重视程度加强,适合企业不同特性的从存储备份方案也应运而生.重复删除技术就是其中的一种.在这篇中就跟大家谈谈,什么样的企业适合采用重复数据删除技术. 一.数据量大.且冗余大的企业适合使用重复数据删除技术. 在对企业的信息化数据进行存储与备份时,超大的容量一直是项目管理员比较头疼的问题.有不少企业,可能一年就需要升级一下存储设备的容量.在这种情况下,采用重复数据删除技术能够起到一定的效果. 通常情况下,当企业的数据量越大,备份数据中所包含的冗余部分也就越多.虽然说增量的http:

重复数据删除技术的几个产品

不久以前,重复数据删除领域还只有几家初始公司,比如Data Domain.过去五年来,这个技术不断发展壮大.现在,几乎所有大厂商都在使用重复数据删除技术. 如果你想采用这项技术的话,下面这几个产品值得留意. 1. Quantum DXi8500 Quantum的DXi系列内置重复数据删除功能的磁盘系统包含几个产品.例如,DXi8500针对的是企业范围的备份.灾难恢复和数据保护.它提供高达6.4TB/小时的备份性能和至多200TB的可用容量. Quantum企业磁盘系统产品经理Mike Spark

企业级大数据备份:十问重复数据删除技术

仅仅在几年以前,重复数据删除还是一个独立的功能,重复数据删除为企业备份和归档部门的存储系统提供另一种选择.同时也在云端网关找到了新的用途,当数据进入阵列或虚拟磁带库之前过滤掉不必要的数据块.现在,它已经成为统一计算系统预先集成的功能.而了解如何更有效的使用这项技术成为一种需求.于此同时IT经理应该重新审视存储问题并询问为其提供存储的供应商. 1. 重复数据删除技术对备份性能将产生什么影响? 对于业务成倍增长的大型企业来说高性能是至关重要的.同时企业还需在有限的备份环境内确保海量数据备份环境的安全

重复数据删除技术在备份中的应用体会

   2007年底,熊猫电子集团选择EMC Avamar重复数据删除技术,建成了同行业中领先的数据备份系统.目前,这一技术已经在熊猫电子成功应用近一年了.在此介绍我们的应用经验,希望可以给国内同行提供有益的启示. 数据对熊猫集团的意义 南京熊猫电子集团创始于1936年,是一家具有70多年历史的国有综合性大型电子信息企业.1996年,熊猫集团控股的南京熊猫电子股份有限公司分别在香港联交所和上海证交所上市,成为国内电子行业第一家拥有H股的上市公司.南京熊猫电子集团下设家用电器产业集团.机电仪产业集团

CIO关注:重复数据删除技术避免存储黑洞

       企业信息系统选型宝典存储备份漫长的等待时间,和瞬间海量数据的增长,对于CIO来说都是一个痛苦的过程.他们眼看着宝贵的存储资源在慢慢被耗尽,又束手无策.数据备份和恢复,是保证企业信息安全的必由之路,但如何有效地利用存储资源,从而缓解存储压力,重复数据删除技术给CIO们提供了一个不错的选择. 机遇 OPPORTUNITY Gartner认为,在未来18个月内,重复数据删除技术(DataDe-duplication)将扮演重要的角色,以帮助企业得以自如地控制日益堆积如山的数据,以达到企业

惠普:Data Domain重复数据删除技术的巨大潜力

惠普从EMC与NetApp争夺Data Domain的大战中看到了重复数据删除技术的潜力--惠普表示,他们将也加入到其中. 惠普存储平台http://www.aliyun.com/zixun/aggregation/32064.html">市场总监Kyle Fitze表示:"这次交易与EMC和NetApp之间的竞价显示了该市场存在的商机.我们也希望加入其中参与竞争." 惠普通过一年前与Sepaton建立合作关系涉足重复数据删除市场,并且推出了由惠普实验室开发.针对远程办

EMC Data Domain重复数据删除技术蓝图

在EMC的重复数据删除技术蓝图中,Avamar和DataDomain被赋予不同的工作目标,Avamar更侧重于源端,更偏向在VMware虚拟化环境.备份服务器.在线复制等http://www.aliyun.com/zixun/aggregation/18665.html">应用领域,其最新的进展是EMC将Avamar推进到了桌面和移动办公领域:DataDomain的工作则更多的侧重在目标端,即业务系统后端所连接的存储.备份和归档.容灾设备. 目前DataDomain已经能够在包括EMC.赛