哈梅巴赫是哈佛大学毕业的数学家,在2006年被聘请到Facebook,他的工作是治理马克·扎克伯格(Mark Zuckerberg)的社交网络所产生的所有数据 - 弄明白人们过去在这个网站上面做些什么,并找到提高服务水平的新途径。但哈梅巴赫记得,当这项服务覆盖到数以百万计的人群,它所产生的数据,超过了该公司手边软件的分析能力:一个老式的Oracle数据库。
当时,一长队的初创企业提供了各种新的数据库,用以存储和分析海量的数据,如 Greenplum,Vertica,和Netezza。哈梅巴赫和Facebook一一尝试过,但是,它们统统不适合这项任务。
最后,Facebook迁移到了一个鲜为人知的开源软件平台,它就是刚在雅虎落地的Hadoop,Hadoop的建立是为了利用数以千计的普通计算机服务器的威力。不同于 Greenplums和Verticas,哈梅巴赫说,Hadoop可以存储和处理迅速成为世界上最流行的社交网络所产生的不断扩大的海量数据。
在接下来的几年中,Hadoop不仅在改造了Facebook和雅虎,也改造了许多其他Web服务的数据分析。然后一大批的商业软件供应商开始将Hadoop销售到其他领域。很快地,即使是像甲骨文和Greenplum这样的企业也在兜售Hadoop。Hadoop在这些公司仍然被视为传统数据库的一种辅助 - 作为一种工具,只适合某些类型的数据分析。但现在,这也在发生变化。
在上周一,Greenplum - 现在为高科技巨头EMC所拥有 - 透露,该公司已经花了近两年的时间构建一个全新的Hadoop平台,它相信将把传统数据库甩在身后。这个工具被称为Pivotal HD,可以存储大量的信息,但它的设计在于让速度明显快于现有的开源平台。
“我们认为,我们面临一个重大的转变,企业都在寻找一套规范,应用程序可以很容易地运行在现有的数据架构和关系数据库上,”Paul Martiz说,他是曾经是微软的高管,现在负责Greenplum。企业需要有新的数据架构,Maritz说,这个架构的起点就是Hadoop。
这是一个令人惊讶的声明 - 从这样的一家公司,其原有的业务围绕着一个关系型的数据库,以整齐的行和列存储数据。但是,Greenplum和EMC只是承认了杰夫·哈梅巴赫和Facebook多年前得到的结论:Hadoop非常适合的现代企业所面临的海量数据存储和处理。
更重要的是,Greenplum的改造,使得Hadoop的操作更像是一个关系型数据库,让你快速地使用结构化查询语言(SQL),几十年来后者一直主导着数据库的世界。“当我们被EMC收购,我们真的相信这两个世界融合在一起,”Greenplum的联合创始人Scott Yara说,“这是令人兴奋的是,如果你可以将大规模并行查询处理技术带到数据库系统中(像Greenplum),并基本上与Hadoop平台融合。”
Greenplum联合创始人斯科特·亚拉(Scott Yara)
一直以来困扰Hadoop的问题是,它需要如此多的时间来分析数据。它是一个“批处理系统”,使用一个叫做Hadoop MapReduce的框架,你有建立各种复杂程序以处理巨大数量的数据的自由,但是当你给它任务,你需要等待几个小时甚至数天的响应时间。
通过新系统, Greenplum的努力改变这种状况。一个由前微软数据库设计师Florian Waas领导的研究小组,设计了一个新的“查询引擎”,针对存储在一个庞大的使用Hadoop文件系统(HDFS)的集群系统的数据,它可以更快地运行SQL查询,。开源工具如Hive长期以来提供了在Hadoop数据上运行SQL查询的方式,然而,这也是一个批处理系统,完成查询需要相当长的时间。
作为Pivotal HD的一部分,这个查询引擎将在今年晚些时候首次亮相。Greenplum现在是EMC子公司The Pivotal Initiative举足轻重的部分,旨在将一些新时代的网络技术和工艺带到一般的企业。
这一次,Greenplum与杰夫·哈梅巴赫完全一致。在离开Facebook之后,哈梅巴赫帮助创建了一个Hadoop初创公司Cloudera,去年年底,他推出了一个系统,称为Impala,也试图在Hadoop之上运行实时查询。但是,根据Waas和Yara的说法,运行Hadoop之上的SQL查询,Pivotal HD是明显比Impala及许多其他同类工具要快。Yara声称,Pivotal HD至少比Impala快100倍。
需要注意的是,Waas表示,当Pivotal HD正在运行查询时,如果一台服务器崩溃,你将不得不重新启动查询。这与人们所期望的运行在Hadoop上的工作有一点不同,Hadoop是专为设计以在一个大型的服务器集群上保持运行,即使其中单独的机器出现故障 - 因为这是不可避免的。
“Pivotal HD的查询扩展的表现略有不同,它们需要重新启动查询,当一台机器掉队时,”他说,“一个单独的查询需要重新启动,但系统功能的完整性、可及性和实用性都可以保证继续。我们认为这是几个数量级的性能提升的一个小代价,在这个过程中我们没有加工任何结果。”
传统的数据库总是有它的位置。即使是Greenplum,也将继续提供其原始的数据仓库工具,它是基于开源的PostgreSQL数据库。但该公司的新查询引擎表明了另外的信号:Hadoop将继续重塑企业处理他们的数据的模式。不仅仅是网络巨头,而是所有的企业。
文章相关课程 基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析