文章讲的是大数据时代:存储选择变幻莫测,随着企业级大数据存储需求的不断增加,存储厂商和系统管理人员都需要确定在大数据环境下的最佳实践是怎样的。因此,我们看到有越来越多像是Hadoop和“云”之类的东西。但根据Toigo Partners International的最主要的合作伙伴Jon Toigo的看法,这些方法并不是大数据环境下最好的。
在本文中,Toigo与网站编辑助理Sarah Wilson就大数据环境下的存储市场变革进行了讨论。收听音频或阅读下文中的对话内容,了解他关于大数据环境下存储、云、备份和容灾如何进行调整的观点。
Q:你认为存储市场会如何发展以更好地适应大数据?
Jon Toigo:好的,我认为大家会看到两种不同的趋势。其中之一是Hadoop与大数据已密不可分。我们说的是Hadoop集群。关于这一点基本上业界抛弃了共享存储——SAN(存储区域网络)和NAS(网络附加存储)——更倾向于使用直连存储(DAS),尤其是使用闪存的DAS。IBM已经登上了舞台,他们存储部门的主管强调说,“我们认为闪存是所有存储的未来。”于是他们推崇基于闪存的存储,直连到集群上作为大数据分析的数据存储介质。我不晓得这是不是解决问题的最佳方案,但我认为这样会花掉一大笔钱。它回退到1999年以前的存储架构,它再次引入了几十年前我们有过的两个问题,忽略了存储孤岛上的数据保护问题。你将不得不进行节点间的复制以确定存储孤岛间提供保护所需要的带宽。然而,考虑到存储销售额放缓的一般趋势,这样做的确会卖出更多的设备,是业内人士希望看到的。
另外一种趋势是以整体的视角看待这个问题。客户会说,“过去十年里我们一直在部署共享存储,部署光纤通道架构。我们跟随着科技进步的方向,无论是用InfiniBand或SAS或者下一代新技术。为什么我们要花十年把这些搭起来,然后又把他们分开拆掉?”这样做没什么意义。你看像是DataCore Software这样的公司,或者一些使用SAN卷控制器的IBM的产品,以及其他人在试着对存储做虚拟化,从而向服务器提供虚拟卷,就像这些服务器直连存储一样。这样做会更有意义,能整体地管理与存储相关的所有设备。这方面我认为还有很多事情要做,而不是把存储分开,为服务器添加直连存储。并且我认为,最终我们会到达后一种模型。
对于在大数据环境下的存储来说,“云”似乎是一个很流行的选择。你认为云提供商是否在调整他们的服务以更好地适应大数据?
Toigo:正如你知道的,我对云的目前发展有些迷惑。总体来说我不是一个典型的云技术推崇者,但是,我们认为这可能是云发展过程中较好的模型之一——应用于云的可持续业务模型,即为承载大量特定类型的数据进行定制的云。就此我咨询过专家。我问IBM的Jeff Jonas,由云服务提供商来搭建一个大数据是否有意义,是否这样我就不必自己买基础设施了?我认为对于一个不想去花大笔钱来买支持Hadoop的基础设施的公司是有意义的,对于他们Hadoop上的业务分析项目可能只用一回,或者频率很低,就像选民登记分析。为什么你会搭建一个几百美元的基础设施来分析数据的某一方面之后就回家并简单地关掉它?至少对我来说没什么意义。
Jonas对这个观点不太同意,我对此有些迷惑不解,他解释了自己的观点。他说定位云中的数据需要大量时间,访问云中的数据需要付费带宽,与数据和云相关的初始安全问题、弹性问题,以及一些云运维其他方面问题,导致云不是托管大数据分析所需数据的最佳位置。
现在我考虑,假设这些问题中一部分可以解决,这个假设有些托大,你就会发现云提供商会这样说,“我们为国家研究所处理所有关于癌症治疗的诊疗数据。我们已经正确地取出所有病人自身的参考,所有的原始数据都在这儿。”现在如果约翰霍普金斯大学想对他们正在做的新药试验进行大数据分析,这应该是可行的,即作为一种服务,插入数据集并把它包含在分析模型中。这样做是有意义的,因为你已经有了拥有需要这类数据的多个客户。
是否我会把自己的数据上传到云中?大概不会。现在不这样做,未来也不会这样做,因为云服务提供商受制于这样一个事实:对于连接到我工场的网络,他无所有权。那他怎么能义正言辞地说能保证我服务质量?对于我访问服务器的途径他有心无力。如果我的电话系统每个月重启上几回,是否拥有一个超稳定的云服务并不重要,我将无法访问它。所以我没法相信任何一个云服务提供商告诉我的。如果数据在云中,我很难相信我的信息是安全的。现在这样的话没啥大问题,如果我采用某种形式的单向散列(IBM的Jonas这样建议的)并去掉数据中的私人信息,我没有什么可担心的。但是对于我的业务流程,这是关键业务,对于我的商业交易、我的财务信息、信用卡信息,无论如何,我可以肯定地说我不打算把它们置于云端。底线:我觉得云有问题,我不确定它把一切都做好了。另外,关于云的使用情况——我最近读到一篇文章提到,投入使用的云增加了340%,不过仅调查了19人。
在大数据环境下备份和容灾发生了怎样的变化?
Toigo:如果你研究一下Hadoop的模型,会发现它基本上抛弃了你的共享存储,它部署于独立的节点和直连存储形式之上,于是面临一个巨大的问题就是如何对数据进行副本和保护。这是一个重要问题。我们遇到过已使用VMware的客户,因为VMware与传统共享存储无法很好的协作。VMware需要你做的就是,解除您的SAN配置,以直连方式将存储部署到集群中的每个VMware服务器。这就引入了一个问题,你必须依赖后端的副本策略和节点间镜像,而镜像的问题是在于没人做检查。将一个镜像关闭是一件痛苦的事情:使应用进入静默状态,将缓存中的数据刷到磁盘上,并将数据复制到二级镜像,然后关闭整个操作,进行文件级比对,然后交叉手指祈祷好运并进行重启,希望你不会遇到未正常同步的解决能力之外的问题。因此,没有人会去检查镜像。这便是构建在Hadoop架构之上的大数据方案的“阿喀琉斯之踵”。
现在,我会这样说,使用大数据分析建立模型和监控存储基础设施,我有一大堆的“各种信息”,诸如磁盘的smart技术和各种管理存储组件的基本管理器——实时或主动的关联这些信息并定位问题,实际上我能够避免很多灾难的发生。一方面,我喜欢大数据,因为从更好的灾难恢复的角度来看,可以提供给我更优质的信息和更好的基础设施管理,这样我就可以规避这类风险。另一方面,我不喜欢Hadoop这样的基础设施,因为从数据保护的角度来看,它会把我的生活弄得复杂。
作者:蔡思萌
来源:IT168
原文链接:大数据时代:存储选择变幻莫测