大数据时代:存储选择变幻莫测

文章讲的是大数据时代:存储选择变幻莫测,随着企业级大数据存储需求的不断增加,存储厂商和系统管理人员都需要确定在大数据环境下的最佳实践是怎样的。因此,我们看到有越来越多像是Hadoop和“云”之类的东西。但根据Toigo Partners International的最主要的合作伙伴Jon Toigo的看法,这些方法并不是大数据环境下最好的。

  在本文中,Toigo与网站编辑助理Sarah Wilson就大数据环境下的存储市场变革进行了讨论。收听音频或阅读下文中的对话内容,了解他关于大数据环境下存储、云、备份和容灾如何进行调整的观点。

  Q:你认为存储市场会如何发展以更好地适应大数据?

  Jon Toigo:好的,我认为大家会看到两种不同的趋势。其中之一是Hadoop与大数据已密不可分。我们说的是Hadoop集群。关于这一点基本上业界抛弃了共享存储——SAN(存储区域网络)和NAS(网络附加存储)——更倾向于使用直连存储(DAS),尤其是使用闪存的DAS。IBM已经登上了舞台,他们存储部门的主管强调说,“我们认为闪存是所有存储的未来。”于是他们推崇基于闪存的存储,直连到集群上作为大数据分析的数据存储介质。我不晓得这是不是解决问题的最佳方案,但我认为这样会花掉一大笔钱。它回退到1999年以前的存储架构,它再次引入了几十年前我们有过的两个问题,忽略了存储孤岛上的数据保护问题。你将不得不进行节点间的复制以确定存储孤岛间提供保护所需要的带宽。然而,考虑到存储销售额放缓的一般趋势,这样做的确会卖出更多的设备,是业内人士希望看到的。

  另外一种趋势是以整体的视角看待这个问题。客户会说,“过去十年里我们一直在部署共享存储,部署光纤通道架构。我们跟随着科技进步的方向,无论是用InfiniBand或SAS或者下一代新技术。为什么我们要花十年把这些搭起来,然后又把他们分开拆掉?”这样做没什么意义。你看像是DataCore Software这样的公司,或者一些使用SAN卷控制器的IBM的产品,以及其他人在试着对存储做虚拟化,从而向服务器提供虚拟卷,就像这些服务器直连存储一样。这样做会更有意义,能整体地管理与存储相关的所有设备。这方面我认为还有很多事情要做,而不是把存储分开,为服务器添加直连存储。并且我认为,最终我们会到达后一种模型。

  对于在大数据环境下的存储来说,“云”似乎是一个很流行的选择。你认为云提供商是否在调整他们的服务以更好地适应大数据?

  Toigo:正如你知道的,我对云的目前发展有些迷惑。总体来说我不是一个典型的云技术推崇者,但是,我们认为这可能是云发展过程中较好的模型之一——应用于云的可持续业务模型,即为承载大量特定类型的数据进行定制的云。就此我咨询过专家。我问IBM的Jeff Jonas,由云服务提供商来搭建一个大数据是否有意义,是否这样我就不必自己买基础设施了?我认为对于一个不想去花大笔钱来买支持Hadoop的基础设施的公司是有意义的,对于他们Hadoop上的业务分析项目可能只用一回,或者频率很低,就像选民登记分析。为什么你会搭建一个几百美元的基础设施来分析数据的某一方面之后就回家并简单地关掉它?至少对我来说没什么意义。

  Jonas对这个观点不太同意,我对此有些迷惑不解,他解释了自己的观点。他说定位云中的数据需要大量时间,访问云中的数据需要付费带宽,与数据和云相关的初始安全问题、弹性问题,以及一些云运维其他方面问题,导致云不是托管大数据分析所需数据的最佳位置。

  现在我考虑,假设这些问题中一部分可以解决,这个假设有些托大,你就会发现云提供商会这样说,“我们为国家研究所处理所有关于癌症治疗的诊疗数据。我们已经正确地取出所有病人自身的参考,所有的原始数据都在这儿。”现在如果约翰霍普金斯大学想对他们正在做的新药试验进行大数据分析,这应该是可行的,即作为一种服务,插入数据集并把它包含在分析模型中。这样做是有意义的,因为你已经有了拥有需要这类数据的多个客户。

  是否我会把自己的数据上传到云中?大概不会。现在不这样做,未来也不会这样做,因为云服务提供商受制于这样一个事实:对于连接到我工场的网络,他无所有权。那他怎么能义正言辞地说能保证我服务质量?对于我访问服务器的途径他有心无力。如果我的电话系统每个月重启上几回,是否拥有一个超稳定的云服务并不重要,我将无法访问它。所以我没法相信任何一个云服务提供商告诉我的。如果数据在云中,我很难相信我的信息是安全的。现在这样的话没啥大问题,如果我采用某种形式的单向散列(IBM的Jonas这样建议的)并去掉数据中的私人信息,我没有什么可担心的。但是对于我的业务流程,这是关键业务,对于我的商业交易、我的财务信息、信用卡信息,无论如何,我可以肯定地说我不打算把它们置于云端。底线:我觉得云有问题,我不确定它把一切都做好了。另外,关于云的使用情况——我最近读到一篇文章提到,投入使用的云增加了340%,不过仅调查了19人。

  在大数据环境下备份和容灾发生了怎样的变化?

  Toigo:如果你研究一下Hadoop的模型,会发现它基本上抛弃了你的共享存储,它部署于独立的节点和直连存储形式之上,于是面临一个巨大的问题就是如何对数据进行副本和保护。这是一个重要问题。我们遇到过已使用VMware的客户,因为VMware与传统共享存储无法很好的协作。VMware需要你做的就是,解除您的SAN配置,以直连方式将存储部署到集群中的每个VMware服务器。这就引入了一个问题,你必须依赖后端的副本策略和节点间镜像,而镜像的问题是在于没人做检查。将一个镜像关闭是一件痛苦的事情:使应用进入静默状态,将缓存中的数据刷到磁盘上,并将数据复制到二级镜像,然后关闭整个操作,进行文件级比对,然后交叉手指祈祷好运并进行重启,希望你不会遇到未正常同步的解决能力之外的问题。因此,没有人会去检查镜像。这便是构建在Hadoop架构之上的大数据方案的“阿喀琉斯之踵”。

  现在,我会这样说,使用大数据分析建立模型和监控存储基础设施,我有一大堆的“各种信息”,诸如磁盘的smart技术和各种管理存储组件的基本管理器——实时或主动的关联这些信息并定位问题,实际上我能够避免很多灾难的发生。一方面,我喜欢大数据,因为从更好的灾难恢复的角度来看,可以提供给我更优质的信息和更好的基础设施管理,这样我就可以规避这类风险。另一方面,我不喜欢Hadoop这样的基础设施,因为从数据保护的角度来看,它会把我的生活弄得复杂。

作者:蔡思萌

来源:IT168

原文链接:大数据时代:存储选择变幻莫测

时间: 2024-11-05 17:09:46

大数据时代:存储选择变幻莫测的相关文章

大数据时代存储趋势与戴尔应变之道

业务领域的变化速度与日俱增,组织开始面临前所未有的压力,需要全天候提供最为经济高效且具有最高性能的IT支持服务.而信息作为组织最宝贵的资产,通常也具有最高的维护成本.如今的组织已经认识到,快速地存储.保护.访问和分析数据,同时安全且经济高效地管理数据,是业务成败的关键所在. 2014 年,企业需要继续运用 IT 基础架构来快速且高效地交付高质量服务,而以下5大企业级存储趋势是不能忽略的. 闪存的经济效益 闪存能够用比传统旋转盘片式磁盘快得多的速度来处理数据,这是组织权衡性能与成本时的选项之一.尽

“云+大数据”时代 中端存储如何选择

 云计算.大数据,随着这两个技术词汇在越来越多的映入我们眼帘的同时,一方面企业级IT基础架构也在随之在潜移默化的改变着."云+大数据"时代,在很多人看来,首先想到的是,大数据和私有云存储是一个具有雄厚技术与经济实力的大型企业才有可能实现的.其实不然,与前几年的云雾笼罩不同,云计算正在为IT经理们越来越熟悉,他们中的一些已经成功的实施部署了云计算;在存储方面,据IDG的研究表明,在新技术趋势对各不同规模大小企业所造成的挑战分析认为,中小企业更易于采用和实现新的技术趋势.而根据中小企业的数

分析:大数据时代下的存储平台选择

文章讲的是分析:大数据时代下的存储平台选择,大数据是时下最热门的企业IT话题,那么大数据对存储有什么要求呢? 为了解决这个问题,我们首先来分析一下大数据的特点. Gartner对大数据下了一个简洁的定义:"大数据是需要新处理模式才能具有更强的决策力.洞察力和流程优化能力的海量.高增长率和多样化的信息资产." 所以,大数据既包含结构化数据也包括非结构化数据,而且是以数量巨大.变化率高的形式存在. 大数据如此热门的主要原因是因为它能提供可行性的见解.企业通常使用分析应用来提取大数据里的本来

阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝消费记录存储在线历史存储统一:从蚂蚁安全风控的多年存储演进,到HBase.TT.Galaxy的大数据激情迭代:HBase在阿里经历过年轻的苦涩,释放过青春的活力,也付出过成长的代价.几代人的不懈努力下,五年陈的HBase开始表现出更成熟.更

大数据时代的结构化存储—HBase在阿里的应用实践

前言 时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台. 这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅.从最初的淘宝历史交易记录,到去年的支付宝消费记录存储在线历史存储统一:从蚂蚁安全风控的多年存储演进,到HBase.TT.Galaxy的大数据激情迭代:HBase在阿里经历过年轻的苦涩,释放过青春的活力,也付出过成长的代价.几代人的不懈努力下,五年陈的HBase开始表现出更成熟.更

大数据时代结构化存储云HBase技术架构及最佳实践

在10年,阿里研究HBase,是为了解决阿里容量及并发的实际问题,按照数据库要求,阿里深入HBase技术,并致力于保障稳定性和性能,目前已经有10000台规模,数百个集群,大约1亿的QPS,服务整个集团的业务.17年,把这部分能力也开放给公有云客户.本文中,阿里云高级专家封神带来了主题演讲<大数据时代结构化存储云HBase技术架构及最佳实践>,介绍HBase的应用选择.实战案例.技术平台解读以及后续的规划. 为什么应用HBase 一般而言,传统关系型数据库面临着成本.容量.QPS.分析等多方面

何英华:大数据时代的存储之道

本文讲的是何英华:大数据时代的存储之道,当前,随着企业规模的不断成长,有效存储和管理长期累积的且仍在持续快速增长的海量数据,从中发掘商业价值,意味着巨大的市场机遇;同时,也带来了严峻的挑战:大数据将挑战企业在存储架构及数据中心基础设施等,也会引发数据仓库.数据挖掘.商业智能.云计算等应用的连锁反应.如何选择有效的组织管理数据,提供商业解决方案,已经不是单纯的IT技术问题,而是与企业未来发展前途攸关的关键性问题. 面对大数据存在的机遇与挑战,在以"海量数据 深度分析 智慧商业"为主题的第

观点:开源软件 大数据时代的最佳选择

在过去的12个月当中,大数据浪潮席卷全球各个领域.即使是最大的机构也缺乏基础设施.工具以及方法,这直接导致了企业缺乏从大数据中有效的提取关键数据并转换为洞察业务的能力.但现今大数据的世界正在发生变化.对于所有类型和规模的组织,海量的开源软件和低成本的硬件组合大大降低了大数据处理系统的门槛. 简单的说,开源解决方案允许组织在短时间内将集群发展到成千上万台服务器的规模,以便更好地支持大数据的服务.并且只需支付所用资源的开销.而以下几点也充分说明了开源软件是大数据时代最好的选择. 1.包含众多的大数据

数据无界·存储无疆:大数据时代下,闪存已经势不可挡

近日,IBM在深圳召开"数据无界 • 存储无疆,IBM为大数据再造存储盛典"主题大会暨中国闪存联盟第三季启动仪式. 数据无界 • 存储无疆,IBM为大数据再造存储盛典 在"IBM为大数据再造存储盛典"上,IBM向与会嘉宾展示了全新的存储软件产品系列IBM光谱存储(IBM Spectrum Storage)和新一代全闪存解决方案IBM FlashSystem V9000.FlashSystem 900等产品,并介绍了自身在存储领域的新战略.新行动与新成果. IBM大中