Hortonworks CEO:一半数据采用Hadoop

文章讲的是Hortonworks CEO:一半数据采用Hadoop,人物简介:在被任命为Hortonworks CEO之前,Eric Baldeschwieler在雅虎负责Apache Hadoop项目,将其从20个节点的原型系统发展为42000个节点的服务。Eric Baldeschwieler曾经是Inktomi公司Web服务引擎的技术领导者,该公司在2003年被雅虎收购。在采访中,Eric Baldeschwieler表示,未来五年内全世界一半的数据将采用Hadoop,以下是对Eric Baldeschwieler进行访谈的内容。

  问:多年以来,雅虎花费重金投资Apache Hadoop项目,现在将其剥离出来成立独立公司Hortonworks。您如何看待这个决定?

  大约五、六年以前Apache Hadoop只是一个包含20个节点的原型系统。从那时起雅虎开始致力于Apache Hadoop项目,组建了团队并在过去的时间里一直专注于Apache Hadoop项目的推动工作。雅虎构建了所有的发行版本,已经成为了Hadoop所有发行版本的主要的贡献者。作为一个团队,我们已经习惯于支持一个更为广泛的社区。当然,不同之处在于现在我们明确地将雅虎作为一个客户并为其提供支持。关键在于Hortonworks是一家独立的公司,而雅虎是Hortonworks的投资人,顾客以及开发合作伙伴。在雅虎仍将有大量人员继续为Hadoop做出贡献并在Hadoop之上构建应用。目前在雅虎有超过1000人的Hadoop活跃用户。

  问:雅虎现在是你们的用户了,你们为客户提供哪些服务呢?

  目前我们为雅虎提供3级支持,包括开发者培训,一般的问题甚至是解决Hadoop新开发者遇到的bug。同时我们将提供升级支持,而且如果他们发现了不能解决的有趣问题,我们将提供帮助。

  问:这么说来,客户只要关注自己的项目,你们所做的工作将能够抵消客户开发Hadoop的成本?

  没错,就是这样。选择以开源形式开发大数据平台的主要原因是我们相信随着时间的推移一个生态系统将由此发展起来—而雅虎将因广泛使用该平台的社区而受益。这是雅虎战略的成功之处。现在形势一片大好,新闻媒体对Hadoop很感兴趣,数以千计的公司或部门已经广泛采用了Hadoop。因此,现在是成立一家独立的公司承担特定的角色,继续推动Hadoop技术继续前进并围绕Hadoop实现新特性、新技术角色的时机了。

  问:你没推出企业版或者说付费软件的计划,那么Hortonworks的商业模式是怎样的呢?

  首先,Hadoop已经提交给Apache基金会而且是开源的,我们认为应该有一个能够从Apache下载的完整版本。我们短期的业务模式是培训与支持,并作为雅虎的战略伙伴。雅虎具有浓厚的兴趣看到Hadoop以某种方式持续演变,他们愿意支付费用让我们进行设计与开发。

  问:从风险投资的角度来看,这个模式可行吗?

  Hortonworks的两大投资人是雅虎和Benchmark Capital。Rob Bearden是Benchmark Capital的投资合伙人,他加入了Hortonworks任COO和公司总裁,因此他肯定相信这是企业软件的下一个巨大的机会。当我们说到我们相信在五年之内世界上一半的数据将采用Hadoop时,我们是抱着很严肃的态度的。我们认为这代表着我们具有巨大的机会。未来将是个庞大的生态系统而且我们认为我们的投入意义重大。培训与技术支持将成长为一个重大的健康产业,短期内我们将关注于培训与技术支持。因为我们合并了相关开源产品的生态系统并没有经历如Unix那样的分裂,这非常关键。

  问:在一段时间之后这个模型将会改变吗?

  当然,但是在一段时间之后,事情并不会改变因为我们相信Hadoop以及与之相关的项目应该是一个完整的、可部署并解决业务问题的水平分层。短期内我们仅关注企业更加容易安装并使用Hadoop,第三方更加容易构建业务(包括软件业务,OEM业务以及围绕Hadoop的集成业务),增加Hadoop的市场份额。我们认为,凭借丰富的技术经验,我们能够帮助跨越目前存在的障碍,而且在保持核心免费的同时我们所做的存在巨大的机会。我们做出承诺并不意味着今后我们不会在Hadoop之上构建产品或者做其他事以获取收益。机会总是巨大的,我们具有充足的资金,能够对Hadoop进行验证,这就是我们的使命所在。

  问:目前有一些有资金支持的Hadoop的项目,比如DataMirror, Cloudera以及MapR。有些人使用Apache,有些人并不使用Apache。Hortonworks在其中发挥什么作用呢?

  这很难简单地说清楚,但是我们相信开源的伟大之处在于你的合作伙伴非常广泛。任何使用Apache Hadoop的公司将产品改进提交给Apache Hadoop,我们致力于与这些人合作。我们的工作就是让Apache Hadoop成长得更加强大。

  问:如果Apache是Hadoop最大的发行版,Apache Hadoop获得成功重要吗?Hadoop应该存在多种发行版吗?

  任何健康的生态系统都存在变体,我们只想确保所有人都知道他们能够到Apache网站下载一个不错的Hadoop版本。现在人们仍在存在某些困惑,目前只有真正的专家才能安装并使用Hadoop,因此你想让Hadoop的安装、使用更容易。

  问:你决定如何为业务配备员工?

  我们大概有25名核心员工是提交者和架构师,他们构建了Hadoop,pig,Zookeeper以及其他一些关键的Apache Hadoop项目。我们总有80名员工具有多年构建Hadoop的经验对外提供服务,这是我们强大的优势所在。首先我们招聘设计与构建Hadoop的员工。因为我们有专家,我们能够发挥纯开源的作用,由于我们的专业知识,与我们合作的所有人都将受益。

  问:你如何看待运行一个独立的业务的前景?

  得知我将全心投入到Hadoop,扩充市场并构建技术尽其所用,我异常兴奋。我们需要投资去建立协作关系。我们具有丰富的领域知识以及经验领先的社区,与雅虎良好的伙伴关系允许我们访问硬件以及数以千计的用户,而且能够获取大量的Hadoop用例。我们完全致力于Apache而且是开源的,我们的战略是基于培训,技术支持以及与第三方建立伙伴关系。因为我们是完全开放的并不做专业的服务,我们的关键之处是与众多不同的团体建立合作,这才是我们将要做的。

原文发布时间为:2011-9-09

本文作者:唐蓉

时间: 2024-09-12 11:26:46

Hortonworks CEO:一半数据采用Hadoop的相关文章

采用Hadoop的关键 小处开始大数据之旅

作为大数据技术的典范,Hadoop一直为采用大数据的企业祝福并诅咒着.Hadoop功能强大,却非常复杂,这使得很多企业都宁愿等待更容易的东西问世,再推出大数据项目. 等待已经结束.Hadoop在稳步前进,来自诸如Hortonworks和Cloudera等厂商显着的 易用性增强,使得Hadoop的学习曲线已经减少了一半.企业正越来越多拥抱大数据和Hadoop,目的是从基本的ETL工作负载迁移到先进的数据分析. 但更多人不知道的是,企业使用Hadoop处理大数据的诀窍, 其实就是从小处着手. 小?这

了解采用结构化数据的Hadoop的利与弊

首先,我们来定义一下日志分析的含义.最常见的日志分析用例是运用 http://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop 处理机器生成的日志(通常是指 Web 应用程序及支持 Web 应用程序的点击流).日志分析需要摄取大量半结构化信息,然后将这些信息汇集成更加易于使用的数据集,并从交互中总结重要信息.(广告位)日志处理是创造 Hadoop 的核心用例,因此它能够在这个场景中正常运转一点也不奇怪. Google.Ya

中国联通采用Hadoop建大数据平台业务

大数据平台上,基于Hadoop构建了分布式的数据处理系统 上面是上网记录数据.日志留存的数据等等的数据,这些数据在不断的进行扩充,我们构建了"数据仓储",对原始的数据做轻度的汇总的操作,来形成各种统计分析的数据,以及基于这些数据构建用户的互联网上的用户的画像.另外也构建了互联网用户标识库,如果在使用微信,我们会知道只要使用了微信,我们就知道你不仅是个联通用户也是微信用户.比如说使用微博,我们可以采集到微博的ID,我们就知道你电话手机的号码,我们也知道微博的ID.如果是用QQ,如果没有甚

如何挑选合适的大数据或Hadoop平台?

文章讲的是如何挑选合适的大数据或Hadoop平台,今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此对:译者:贾艳成 QQ:496830205 表示感谢. 二.意见征集: 本章节由<Hadoop专业解决方案群:313702010>翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号,也可以以修订的方式,发送

大数据和Hadoop时代的维度建模和Kimball数据集市

维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模. 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上远不仅如此.数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和概念,并有助于规范企业的关键术语.它清晰地阐述.协助企业揭示商业过程中模糊的想法和歧义.此外,可以使用数据模型与其他利益相关者进行有效沟通.没有蓝图,不可能建造一个房子或桥梁.所以,没有数据模型这样一个蓝图,为什么要建立一个数据应用,比如数据仓库呢? 为什

如何挑选合适的大数据或Hadoop平台?

今年,大数据在很多公司都成为相关话题.虽然没有一个标准的定义来解释何为 "大数据",但在处理大数据上,Hadoop已经成为事实上的标准.IBM.Oracle.SAP.甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop.然而,当你已经决定要使用Hadoop来处理大数据时, 首先碰到的问题就是如何开始以及选择哪一种产品.你有多种选择来安装Hadoop的一个版本并实现大数据处理.本文讨论了不同的选择,并推荐了每种选择的适用场合. Hadoop平台的多种选择 下图展示了Had

必读!大数据:Hadoop,业务分析及更多(2)

大数据处理和分析的新方法 存在多种方法处理和分析大数据,但多数都有一些共同的特点.即他们利用硬件的优势,使用扩展的.并行的处理技术,采用非关系型数据存储处理非结构化和半结构化数据,并对大数据运用高级分析和数据可视化技术,向终端用户传达见解. Wikibon已经确定了三种将会改变业务分析和数据管理市场的大数据方法. Hadoop Hadoop是一个处理.存储和分析海量的分布式.非结构化数据的开源框架.最初由雅虎的Doug Cutting创建,Hadoop的灵感来自于 MapReduce ,MapR

大数据利器Hadoop的应用现状和发展趋势

本文讲的是大数据利器Hadoop的应用现状和发展趋势,Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构.HDFS的高容错性.高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系