2017年5月18-19日,CSDN主办的中国云计算技术大会(CCTC)在北京朝阳门悠唐皇冠假日酒店盛装启航。本次会议践行“云先行,智未来”的主题,在Keynote环节之外精心策划了微服务、人工智能、云核心三大论坛及Spark、Container、区块链、大数据四大技术峰会,众多技术社区骨干、典型行业案例代表齐聚京师,解读本年度国内外云计算技术发展最新趋势,深度剖析云计算与大数据核心技术和架构,聚焦云计算技术在金融、电商、制造、能源等垂直领域的深度实践和应用,全程高能不断档,干货满满精彩纷呈。
在18日的Keynote上,UCloud块存储研发部副总监彭晶鑫带来分享《重新定义云数据保护》,讲述数据故障的状况下数据如何失而复得。在本次CCTC采访间,我们也有幸邀请到他进行了专访,深入时下云数据保护中的技术要点。
UCloud块存储研发部副总监 彭晶鑫
彭晶鑫,上海交通大学研究生毕业,2011加入百度,11年-14年期间负责移动云应用服务后端多项研发工作。目前就职于UCloud,任块存储研发部副总监,负责块存储研发部研发和运营工作,主要包括云硬盘和数据方舟。对服务后端技术、存储技术有相当丰富的研发经验。
方舟护航,致力数据保护
CSDN:首先请介绍下您所在的团队以及目前的工作重点。
彭晶鑫:我目前所在的团队是UCloud块存储团队,主要的工作是分布式云盘和数据保护产品的研发。分布式云盘是我们部门的一个重头产品,主要替代一些传统的方案,比如本地盘的方式,云盘通过分布式的架构为云主机提供持久化存储空间的块设备硬盘, 云硬盘数据在后台都存有多份冗余,并实时同步,具备高可用特性,不受单机故障的影响。数据方舟就是一种连续数据保护产品,它可以让数据恢复到过去12小时的任一秒,24小时的任一小时,还有三天内的任一个零点。
CSDN:现在WannaCry勒索病毒成为大家关注的焦点,您觉得数据保护有怎样的作用?包括哪些形式?
彭晶鑫:通常所说的数据保护,大多数情况下是指我们的数据怎么不被别人所访问到,或者我们怎么防止黑客攻击、病毒攻击的方式。但其实还有非常重要的一块,如果出现意外的情况(黑客攻击,硬件故障,误操作等等)导致数据出现问题,应该怎么找回数据?怎么把数据回档到发生问题前的前一秒或者前几秒?这种形式目前在业界还没有一个非常好的解决方案。
UCloud数据方舟解读,技术要点全剖析
CSDN:对比其它的形式,云数据保护涉及哪些技术?
彭晶鑫:大多数云数据保护都会存在一个痛点,比如WannaCry病毒:当感染了病毒后,即使交纳了赎金,数据也不一定能够得到恢复。但现有的一些备份策略,比如说一天前、两天前甚至几个月前把数据备份到另外一种介质上,真的遇上这种事情时,当恢复完成之后就会发现数据变成一个月前的了,中间一个月的数据可能完全丢失,这对用户来说是比较大的损失。
我们UCloud的数据方舟产品,就是从技术上解决用户的这个痛点。数据方舟通过旁路将磁盘的每时每刻的IO记录下来,并通过更好的技术架构保证较快的回滚速度。后端通过分层架构引入混合存储:实时的I/O可以通过高速设备去存储,非实时的I/O可以通过HDD的方式,通过它自身的顺序读写来发挥威力。另外,数据方舟2.0 通过更好的架构,充分发挥后端集群能力。更好的加快数据回滚的速度。当用户面临需要回滚的场景时,让客户更快的找回数据。
CSDN:UCloud数据方舟主要的应用场景有哪些?
彭晶鑫:一个场景是工程师在线上维护时,很有可能因操作不当而将数据误删掉,如果没有恰当的备份方式,就无法把数据恢复出来。另外一个场景是机器故障,比如硬件故障引起的数据丢失,这种场景下如何快速回滚到故障前的状态也是非常关键的。还有一个场景是最近比较闻名的WannaCry病毒,比特币病毒,感染病毒后数据无法获取,必须按照病毒团队的指示去操作。其他场景如运维不当(误删数据),脏数据,机器故障,黑客或是病毒攻击等等,这些场景下数据方舟都有非常好的实用价值。
CSDN:您演讲的议题是关于重新定义云数据保护,请介绍下“新”在哪里?
彭晶鑫:在目前的行业中,一般的策略是在每天业务的巅峰期打一个快照。比如凌晨三点是我的业务巅峰期,我对磁盘制作一个快照,如果晚上七点的时候突然遇到如上所说的误删数据、机器故障,黑客攻击三种场景,它就只能把数据回滚到凌晨三点的备份。甚至很多时候,一些客户的数据会回滚到几天甚至几个月前。
UCloud数据方舟的重新定义,其“新”就在于它不需要用户过多的操作和策略设置就可以通过较快的速度完成12小时内任一秒的数据回滚而实现最佳的恢复效果。比如七点遇到问题的时候,那么数据就可以恢复到6点59分59秒,或者是59分五十几秒这么一种状态。
亮点及创新之处就在于一是复原时间点的保障,二是速度的保证,能够快速恢复到任意秒。假如一个1T大小的磁盘数据,在业界回滚一般需要七至八个小时,但是UCloud数据方舟基本可以在30分钟内完成。另外,数据方舟还有一个优势特点,如果回滚之前用户的磁盘遇到了问题,用户当时的磁盘数据我们并不会去修改,而会回滚到一个新的磁盘上。这种方式能更好地保障我们客户的数据,即使客户后悔,之前的数据也能够留存。总的来说,我们在把数据恢复到新盘上的同时,还保证它的速度是非常快的,更快挽回客户损失,在这两点上重新定义数据的保护。这在目前的云计算行业也是独家的。
CSDN:在架构设计上UCloud有过什么样的考量?有没有特别设计一些应用场景?
彭晶鑫:除去上面提到的大量I/O写、成本、快速恢复等考量点,我们UCloud希望用户不管是什么样的应用,不管磁盘上部署了什么样的业务,都能通过数据方舟回滚。这个回滚是针对块存储和块设备的,即磁盘上任一应用都可以利用方舟去做到任一秒的回滚,这也是我们重新定义的地方。
在技术上,为了扛住大量的IOPS,及成本上的考量,我们引入了分层的混合存储方式:第一层是为了扛住大量的随机IOPS,即磁盘大量的I/O写操作;第二层采用了比较传统的HDD设备,存储一些不是非常热的数据。两者结合既能扛住大量的随机IOPS,又能节省一定的成本。
另外在存储的时候,我们还充分利用了后端集群的能力:比如调度到集群的任一节点去做实时计算,把计算结果汇聚成所需要的恢复;比如恢复到某时间点的一个数据,最终通过分布式的存储和计算来加快速度,这也是架构设计的一个考量。
CSDN:在具体实施过程中有没有遇到过比较棘手的问题?UCloud是如何解决的?
彭晶鑫:现在数据方舟已经推出了2.0版本。在1.0中,我们考虑了怎么帮我们的用户回滚到任一秒,但当时并没有考虑到怎么快速回滚,这是1.0版本的一个问题。在2.0版本中,我们通过更好的架构设计充分发挥后端集群的能力,并加速回滚速度。
防微杜渐,聚焦数据保护新征程
CSDN:作为企业的开发者、安全人员,您对于安全这一块有没有什么建议?包括运维过程中有没有好的方法和大家分享?
彭晶鑫:从数据保护的这个角度出发,在运维中最基础的是要加上一些备份的策略和方式。此外,最好让数据回滚到比较恰当的时间点。另外,在运维架构、技术方案选型,都需要融入数据可能丢失的考虑,从而需要去选取更好的备份策略,例如数据方舟这种连续数据保护产品,这样才能更好地避免业务损失。
本文转自d1net(转载)