Forrester分析师:Hadoop的首要任务是标准化

虽然流行度逐渐升温,但是根据">Forrester研究机构的高级数据管理分析师James Kobielus的说法,开源技术Hadoop在应对大数据分析时还存在这一定的障碍。其中包括了如何存储上百TB的数据以及Hadoop互操作性标准的缺失。

在TechTarget网站最近的一次采访中,Kobielus向我们介绍了大数据存储的问题,以及为何标准化对于Hadoop普及来说是一件好事。

最近对于Hadoop技术和大数据分析的谈论非常多,Hadoop受到了越来越多的认可,但是为什么并不是所有人都用它呢?

Kobielus:在部署一个大数据分析项目时,不管你用的是Hadoop集群还是传统的数据仓库,我们知道要应对的是几百TB的存储压力,这部分成本是十分昂贵的。所以大数据领域里,真正的成本因素是存储,要花多少钱购买存储设备?你能承受多大的存储?有多少数据可以存放在磁带中?最重要的是存储部分,而不是你选用了哪种技术。

在您的研究中,Hadoop使用者中有多少企业的数据量已经达到PB级别了?

Kobielus:现实中,大多数Hadoop集群是达不到PB数据级别的,而且是差的很远,他们更多的是管理几百TB的数据。但是在我调查的客户中,很多人表示数据增长到PB级别时,存储问题是最让人头疼的。这也就是为什么我们并没有看到很多扩展到PB级别的传统数据仓库,原因很简单,就是成本问题。

那么除了存储的成本问题之外,Hadoop和大数据分析还有哪些挑战?

Kobielus:整个Hadoop生态系统还处在起步阶段,同传统的数据仓库技术相比还不成熟。目前主流的企业数据仓库厂商还有许多没有添加Hadoop的特性,即使是有,也是没有完全地集成到他们的核心数据仓库工具中。这是Hadoop不成熟的一个具体表现。

此外,Hadoop社区并不标准,我的意思是它的标准化同其他开源社区存在一样的问题。许多用户或者公司登录同一个社区,然后自己构建软件并开放源代码。这些功能的确是被许多人用到,但是它缺乏一个统一的正式的标准,或者是批准过程。现在,Hadoop或者开源社区中有许多人会说标准化是一条错误的路线。我也理解他们要表达的意思,但是事实就是在没有标准化的情况下,随之而来的就是风险,而大部分公司是无法承受这部分风险的。

为什么说没有标准化就是存在着潜在的风险呢?

Kobielus:事实上,Hadoop集群目前还没有一个普遍的参考架构,而一个参考架构则可以为可插拔存储层提供一个明确的接口,同样为跨多平台的MapReduce互操作性提供一个标准的界面。这个架构和SOA社区在过去十多年开发的那些参考架构(SOAP、WSDL和UDDI等)相类似,最终目的都是为了加强互操作性。对于Hadoop来说,我们还没有互操作性和认证的测试,这对于许多领域来说都是致命的,比如你的公司是一家大型企业,你们在不同的部门中使用了Hadoop集群,而它们想要结成一个共同体。而现在还没有这样的标准,也没有实时数据控制与访问的技术说明。这样的技术对于许多大型企业在接受上会存在困难。

Hadoop早期的使用者该如何应对互操作性问题?

Kobielus:如果你想要在分布式Hadoop中做真正的实时数据分析话,那么你需要去编写大量的代码来进行功能定制,然而许多时候还会出现bug或者根本无法工作。在这里有很大的风险,我认为业界目前最重要的应该是为互操作性和认证测试创建一个普遍的参考架构,并希望具体出炉一些正式的标准,比如HDFS版本等相关标准。

(责任编辑:吕光)

时间: 2025-01-27 17:18:15

Forrester分析师:Hadoop的首要任务是标准化的相关文章

Hadoop可能已经达到预期的成熟度

五年前,Hadoop用可以解决所有大数据[注]难题的身份杀入主流市场.如今尘埃已经落定,现在是时候对Hadoop展开更切合实际的评估了. 我们现在正处于21世纪第二个十年的正中间.当大数据潮流从五年前开始兴起时,Hadoop将引领未来这一看法得到了普遍认可.Hadoop市场从那时开始的增长显示,这一共识并没有被削弱.持续不懈的宣传至少为Hadoop的部署与创新打下了良好的基础. 如果所有人都非常清楚Hadoop的重要性,那么我们是否还有必要在大数据领域中继续宣传Hadoop将是"下一个大事件&q

技术人员值得关注的九家Hadoop技术企业

文章讲的是技术人员值得关注的九家Hadoop技术企业,如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的Hadoop发行版了. 作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气.并开始逐步走入寻常企业环境.促成这一现状的原因有二:其一.企业需要管理的数据规模愈发庞大,而Hadoop正是完成这项任务的绝佳平台--特别是在传统陈旧数据与新型非结构化数据交相混杂的情况下;其二.已经有众多供应商加入到Hadoop相关支持与服务项目的开

Hadoop MapReduce:数据科学家探索之路

Forrester分析师James Kobielus在一篇关于"大数据"的博客中指出:"关键不在于采用什么方法,而在于能够使用任意可用工具或方法真正地解决问题." 近几年在解决大数据问题的迫切感驱使下,许多组织的数据架构师开始走向探索之路.简单而言,他们通常用于分析企业数据的传统数据库和商业智能工具已经无法胜任大数据处理任务. 要理解这个挑战,必须回到十年前:当时很少有TB级的企业数据仓库.Forrester分析报告指出,在2009年之前,有三分之二的企业数据仓库(

Hadoop:全球热恋

Hadoop似乎火了.150家各种规模的企业都在使用Hadoop,包括大公司摩根大通.谷歌和雅虎等,相信这个开源大数据管理系统很快将出现在你的公司里. 但是在使用Hadoop前,你最好先全面了解Hadoop的相关信息.客户和业内分析师表示,需要经过专门的培训和具备一定的分析能力才能使用Hadoop.然而,并非所有公司都符合这个条件.这仍然是一个非常年轻的市场,很多Hadoop供应商都争相推出各种应用产品,包括云端产品. 最重要的一点:不要听信炒作.Forrester分析师James Kobiel

hadoop权威指南——IBM与AWS关键看啥?

Hadoop:不是选配而是发展趋势 就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构.多年来,开源初创公司Cloudera和Hortonworks在Hadoop市场一直占有绝对地位,诸如Oracle.微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的Hadoop初创公司建立伙伴关系间接地参与市场争夺. 大数据核心(图片来源google) 根据Forrester分析的最新报告,传统技术供应商会推出一系列强势的产品战略,即使所推出的Hadoop产品仍有许多有

开源Hadoop发展迅猛 用户与厂商各取所需

就大数据的核心而言,Hadoop是一个用于有效存储和处理大数据的开源架构.多年来,开源初创公司Cloudera和Hortonworks在 Hadoop市场一直占有绝对地位,诸如Oracle.微软以及其他一些公司也想在这个市场占有一席之地,但更多是通过与专业的Hadoop初创公司建立伙伴关系间接地参与市场争夺. 大数据核心(图片来源google) 根据Forrester分析的最新报告,传统技术供应商会推出一系列强势的产品战略,即使所推出的Hadoop产品仍有许多有待完善的地方.但厂商们却希望提供基

Forrester:全球供应商在中国处于领导地位 但本土供应商却在私有云市场蒸蒸日上

随着各组织逐渐认识到必须尽快推动传统企业的数字转换,加快响应客户的速度,并为客户提供设计新颖的新产品和新服务,私有云解决方案在中国的普及速度也日益加快. Forrester的近期调查显示,在中国,超过一半的业务和技术决策者(51%)计划采用私有云,作为其云计算战略的一部分. 根据Forrester Wave的最新评估,Forrester发现,根据当前的产品.战略和市场占有率,在中国,惠普和VMware在满足企业架构师与基础架构和运营专业人士对私有云解决方案的整体要求方面居于领导地位.然而,评估还

Forrester:IT企业应如何掌控云计算

开发人员热爱云计算,因为云计算让他们的工作更加简单.基础设施和运营部门不应该抵抗这种趋势,而应该尝试接受它.最近Forrester的报告提供了关于控制云计算的一些建议. 来自Forrester的报告"云计算开创IT响应能力和效率的新时代"描述了IT企业应该如何部署和控制云计算,并为IT企业提供了一些建议. 这份报告分为两个部分: 1.应用程序工程师和软件工程师应该怎样应对 2.IT基础设施和运营应该如何响应,从而让整个企业通过云计算满足其需求 抛弃顾虑,接受云计算 云计算的功能正是软件

Forrester:2010年全球科技业支出将增长8.1%

CNET科技资讯网1月13日国际报道 市场研究公司Forrester发布报告称,在经历困难的2009年后,今年全球科技业支出将增长8.1%,增幅最大的是软件和计算机硬件. 今年全球科技业支出将增长至1.6万亿美元,2009年全球科技业支出下跌8.9%. Forrester表示,按美元计算,欧洲科技业支出增幅最高,但信息技术支出将是美国的亮点之一.今年美国信息技术支出将增长6.6%至5680亿美元,2009年下跌8.2%:今年欧洲信息技术支出将增长11.2%. Forrester称,今年全球软件支