文章讲的是技术人员值得关注的九家Hadoop技术企业,如果大家手中握有大量数据,那么接下来要做的就是选择一款理想的Hadoop发行版了。
作为曾经仅仅为谷歌及雅虎等互联网帝国服务的旧日稀罕儿,如今这款大数据管理系统已经积累起极高的知名度与平民人气、并开始逐步走入寻常企业环境。促成这一现状的原因有二:其一、企业需要管理的数据规模愈发庞大,而Hadoop正是完成这项任务的绝佳平台——特别是在传统陈旧数据与新型非结构化数据交相混杂的情况下;其二、已经有众多供应商加入到Hadoop相关支持与服务项目的开发中来,他们的努力也让此类方案变得更为亲民、容易被普通企业所接受。
根据大部分企业的估算,其掌握的数据总量中只有12%能够被加以分析,八下的88%则仅仅占据着存储空间而无法实现价值。
—根据Forrester公司2013年第四季度软件调查报告
“Hadoop已经成为一股不可阻扼的开源力量,其根系广泛而深入地蔓延到各类企业数据管理架构当中,”Forrester公司分析师Mike Gualtieri与Noel Yuhanna在最近发布的Hadoop市场Wave报告中写道。“Forrester认为Hadoop已经成为大型企业必须具备的数据平台,并扮演着任何未来数据管理平台的基石这一重要角色。如果大家拥有大量结构化、非结构化以及/或者二进制数据,那么Hadoop将成为您着手进行数据管理的绝佳起点。”
那么我们首先需要做些什么?Forrester指出,起步阶段可以选择的方向很多,而目前市场上有九家Hadoop服务供应商值得各位认真考量与比较。他们的方案各自拥有不同的优势与缺点,Forrester通过论证表示当前尚未出来一位地位明确的市场统治者,各大技术巨头与众多相对年轻的厂商都拿出了自己值得称道的服务方案。
我们首先要介绍一点背景知识:Hadoop属于开源Apache项目,任何用户都可以免费下载其核心组件——其中包括Hadoop Common、Hadoop分布式文件系统(简称HDFS)、Hadoop YARN以及Hadoop MapReduce等。IBM、Amazon Web Services、微软以及Teradata等企业都试图将Hadoop通过打包发行成更易于使用的发行版或者服务项目。每一家企业在战略取向方面都略有不同,但这些方案的核心区别在于,Hadoop拥有将工作负载分布至成千上万台服务器设备中的能力、而这正是将大数据转化为可管理数据的关键所在。
备注:这份名单以Forrester Wave报告中所列出的供应商为基础,并未涵盖全部Hadoop以及大数据管理平台。先后顺序以首字母排序。
Amazon Web Services
对于希望寻找一套由Hadoop平台负责托管的公有云方案的客户来说,Forrester口中的“云计算之王”就是你的终极目标——没错,有了Amazon Web Services,这类客户根本没必要再去关注其它产品。Amazon公司的Hadoop产品被称为Elastic Map Reduce(简称EMR)。根据AWS方面的说法,该产品是一款利用Hadoop构建起来的大数据管理服务。不过它并不属于纯开源Hadoop,而是经过调整与修改以专门运行在AWS的云环境当中。
Forrester指出,EMR是目前市场上普及程度最高的Hadoop平台。它已经拥有广泛而规模庞大的合作伙伴群体,并努力以EMR为基础提供各类服务,其中包括查询、建模、集成以及管理等等。AWS在创新领域也没有松懈;根据Forrester的调查,其在路线图方面希望为EMR赋予根据工作负载需求而自动调整规模的能力。该公司未来计划逐步通过其它产品与服务为EMR提供更多坚实的支持,其中包括RedShift数据仓库以及最近刚刚公布的Kenesis实时处理引擎。除此之外,AWS还有意提供面向其它NoSQL数据库以及商务智能工具的支持机制。说到缺点方面,AWS最大的总量在于不允许用户在内部环境下运行这套Hadoop发行版;不过大家别急,接下来要提到的两家企业最为擅长的就是这类需求。
Cloudera
Cloudera打造出了一款开源Hadoop发行版,其中借用到了Apache项目的众多成果,不过在此基础之上也作出了大量改进。Cloudera为自家产品开发出数量可观的功能,其中包括名为Cloudera管理器的管理与监控工具外加用于在Hadoop上运行传统数据的SQL引擎Impala。Cloudera利用开源Hadoop作为其发行版的构建基础,但最终成果并不属于纯粹的开源产品。如果Cloudera的客户们需要某些开源Hadoop所不具备的功能特性,他们可以选择自行开发或者寻找一家拥有此类解决方案的合作伙伴。“Cloudera的创新方案一方面紧紧围绕在以Hadoop为核心的技术体系周围,但同时也开展积极创新以快速满足客户需求,从而构建起与其它厂商有所区别的差异化解决方案,”Forrester解释道。结果就是,Cloudera平台的普及范围一直稳步增加、目前已经拥有超过两百家付费用户,其中一部分所管理的节点规模已经超过一千个、数据总量突破1PB,Forrester总结称。
Hortonworks
与Cloudera类似,Hortonworks也是一家专门开发Hadoop产品的技术企业。与Cloudera不同,Hortonworks对于开源Hadoop代码的开发热情几乎是所有厂商当中最高的。Hortonworks的目标是在建立起Hadoop生态系统与用户基础的同时,对开源代码作出改进。其平台方案也始终坚持最大程度与开源代码保持一致。Hortonworks公司管理层表示这样的路线对于用户非常有利,因为这避免了供应商对用户的锁定效应(如果某位Hortonworks客户希望或者需要转而选择其它平台,那么他们可以轻松将现有应用程序移植到开源代码平台之上)。当然,这并不是说Hortonworks公司放弃了在开源代码基础之上的创新尝试。相反,该公司将全部研发力量都投入到了该平台的开源社区当中。举例来说,Hortonworks曾经开发出一款名为Ambari的工具,旨在填补该项目在集群管理领域的空白。Hortonworks的产品方案帮助其在供应商群体中积累起坚实的合作伙伴基础,其中包括Teradata、微软、红帽以及SAP。
IBM
当企业用户想到大型IT项目时,我们脑海中首先出现的很可能正是IBM的名号。正因为如此,IBM也不出意料地成为Hadoop项目领域的主要参与者之一。Forrester指出,IBM打造的Hadoop方案目前已经部署到一百多家客户的业务环境当中,其中不少客户所处理的数据规模都达到了PB级别。该公司利用其丰富的网格计算、全球数据中心以及企业级方案实施经验打造出自己的大数据项目。“IBM的路线图当中包括进一步将BigInsights Hadoop解决方案与IBM相关IT资产加以整合,例如SPSS高级分析、高性能计算工作负载管理、商务智能工具以及数据管理与建模工具等等,”Forrester解释道。
作者: 核子可乐 译
来源:IT168
原文链接:技术人员值得关注的九家Hadoop技术企业