Greenplum转身:Hadoop是数据库的未来

  哈梅巴赫是哈佛大学毕业的数学家,在2006年被聘请到Facebook,他的工作是治理马克·扎克伯格(Mark Zuckerberg)的社交网络所产生的所有数据 - 弄明白人们过去在这个网站上面做些什么,并找到提高服务水平的新途径。但哈梅巴赫记得,当这项服务覆盖到数以百万计的人群,它所产生的数据,超过了该公司手边软件的分析能力:一个老式的Oracle数据库。

  当时,一长队的初创企业提供了各种新的数据库,用以存储和分析海量的数据,如 Greenplum,Vertica,和Nete​​zza。哈梅巴赫和Facebook一一尝试过,但是,它们统统不适合这项任务。

  最后,Facebook迁移到了一个鲜为人知的开源软件平台,它就是刚在雅虎落地的Hadoop,Hadoop的建立是为了利用数以千计的普通计算机服务器的威力。不同于 Greenplums和Verticas,哈梅巴赫说,Hadoop可以存储和处理迅速成为世界上最流行的社交网络所产生的不断扩大的海量数据。

  在接下来的几年中,Hadoop不仅在改造了Facebook和雅虎,也改造了许多其他Web服务的数据分析。然后一大批的商业软件供应商开始将Hadoop销售到其他领域。很快地,即使是像甲骨文和Greenplum这样的企业也在兜售Hadoop。Hadoop在这些公司仍然被视为传统数据库的一种辅助 - 作为一种工具,只适合某些类型的数据分析。但现在,这也在发生变化。

  在上周一,Greenplum - 现在为高科技巨头EMC所拥有 - 透露,该公司已经花了近两年的时间构建一个全新的Hadoop平台,它相信将把传统数据库甩在身后。这个工具被称为Pivotal HD,可以存储大量的信息,但它的设计在于让速度明显快于现有的开源平台。

  “我们认为,我们面临一个重大的转变,企业都在寻找一套规范,应用程序可以很容易地运行在现有的数据架构和关系数据库上,”Paul Martiz说,他是曾经是微软的高管,现在负责Greenplum。企业需要有新的数据架构,Maritz说,这个架构的起点就是Hadoop。

  这是一个令人惊讶的声明 - 从这样的一家公司,其原有的业务围绕着一个关系型的数据库,以整齐的行和列存储数据。但是,Greenplum和EMC只是承认了杰夫·哈梅巴赫和Facebook多年前得到的结论:Hadoop非常适合的现代企业所面临的海量数据存储和处理。

  更重要的是,Greenplum的改造,使得Hadoop的操作更像是一个关系型数据库,让你快速地使用结构化查询语言(SQL),几十年来后者一直主导着数据库的世界。“当我们被EMC收购,我们真的相信这两个世界融合在一起,”Greenplum的联合创始人Scott Yara说,“这是令人兴奋的是,如果你可以将大规模并行查询处理技术带到数据库系统中(像Greenplum),并基本上与Hadoop平台融合。”

  Greenplum联合创始人斯科特·亚拉(Scott Yara)

  一直以来困扰Hadoop的问题是,它需要如此多的时间来分析数据。它是一个“批处理系统”,使用一个叫做Hadoop MapReduce的框架,你有建立各种复杂程序以处理巨大数量的数据的自由,但是当你给它任务,你需要等待几个小时甚至数天的响应时间。

  通过新系统, Greenplum的努力改变这种状况。一个由前微软数据库设计师Florian Waas领导的研究小组,设计了一个新的“查询引擎”,针对存储在一个庞大的使用Hadoop文件系统(HDFS)的集群系统的数据,它可以更快地运行SQL查询,。开源工具如Hive长期以来提供了在Hadoop数据上运行SQL查询的方式,然而,这也是一个批处理系统,完成查询需要相当长的时间。

  作为Pivotal HD的一部分,这个查询引擎将在今年晚些时候首次亮相。Greenplum现在是EMC子公司The Pivotal Initiative举足轻重的部分,旨在将一些新时代的网络技术和工艺带到一般的企业。

  这一次,Greenplum与杰夫·哈梅巴赫完全一致。在离开Facebook之后,哈梅巴赫帮助创建了一个Hadoop初创公司Cloudera,去年年底,他推出了一个系统,称为Impala,也试图在Hadoop之上运行实时查询。但是,根据Waas和Yara的说法,运行Hadoop之上的SQL查询,Pivotal HD是明显比Impala及许多其他同类工具要快。Yara声称,Pivotal HD至少比Impala快100倍。

  需要注意的是,Waas表示,当Pivotal HD正在运行查询时,如果一台服务器崩溃,你将不得不重新启动查询。这与人们所期望的运行在Hadoop上的工作有一点不同,Hadoop是专为设计以在一个大型的服务器集群上保持运行,即使其中单独的机器出现故障 - 因为这是不可避免的。

  “Pivotal HD的查询扩展的表现略有不同,它们需要重新启动查询,当一台机器掉队时,”他说,“一个单独的查询需要重新启动,但系统功能的完整性、可及性和实用性都可以保证继续。我们认为这是几个数量级的性能提升的一个小代价,在这个过程中我们没有加工任何结果。”

  传统的数据库总是有它的位置。即使是Greenplum,也将继续提供其原始的数据仓库工具,它是基于开源的PostgreSQL数据库。但该公司的新查询引擎表明了另外的信号:Hadoop将继续重塑企业处理他们的数据的模式。不仅仅是网络巨头,而是所有的企业。

文章相关课程 基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析

时间: 2024-08-30 11:51:05

Greenplum转身:Hadoop是数据库的未来的相关文章

详解:从Greenplum、Hadoop到现在的阿里大数据技术

对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态. 第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服务--搜索,它需要将全世界所有的网站的数据都爬回去,然后做排序和索引,之后再为用户提供搜索服务.可以看到这样的工

从Greenplum、Hadoop到现在的阿里大数据技术

在2016云栖大会·武汉峰会上,阿里云技术专家宋杰分享了他对云计算的三条路径的理解和感悟,并且阐述了云计算对于企业而言到底意味着什么的问题.那么阿里大数据发展之路经历了哪三次技术突围?阿里又是如何通过十余年的技术沉淀最终铸就飞天系统的呢?本文将为你揭晓答案,精彩不容错过. 对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么? 云计算的三条发展路径及三种落地形态 当回到最初的起点再审视云计算的发展路径,

为什么Hadoop是分布式计算的未来

近日,博客园作者leftnoteasy撰写了一篇题为"为什么我相信Hadoop一定是分布式计算的未来"文章,以此与大家分享自己的观点. 写在前面的话: 今天听同事分享了一篇很有意思的讲座,叫做"Why Map-Reduce Is Not The Solution To Your Big-Data Problem"(为什么Map-Reduce不是你的"大数据"问题的解决方案).同事很牛,也分享了很多非常有价值的观点,不过他预言Map-Reduce将

Hadoop的现在和未来

现今,大数据和Hadoop在计算机工业里正如暴风骤雨般开展着.从CEO.CIO到开发人员,每个人对其用法都有自己的看 法.据Wikipedia所述: "Apache Hadoop是一个开源的软件框架,它支持数据密集型的分布式应用,许可授权隶属于Apache v2 license.[1] 它 使应用程序以拍字节(petabytes) 级数据进行工作,并可以在成千上万台独立的计算机上运行.Hadoop源自于Google的 MapReduce 和 Google File System (GFS) 两篇

基于Hadoop分布式数据库HBase1.0部署及使用

HMaster主要负责Table和Region管理工作:   1. 管理用户对Table的增.删.改.查操作   2. 管理HRegionServer的负载均衡,调整Region分布   3. 在Region Split后,负责新Region的分配   4. 在HRegionServer停机后,负责失效HRegionServer 上的Regions迁移 HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据. HBase工作原理:   HRegionServer内部管

大数据来袭 传统数据库的Hadoop梦想

大数据时代已经来临,并悄悄的影响着我们的生活.根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布.Facebook和其他所有互联网网站.互联网应用,已经逐渐变成了整个数据采集.分析.处理.增值的数据架构. 在中国,社交网络同样如火如荼.新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博.每位用户的平均在线时长为60分钟,活跃用户中有60%通过

EMC升级Greenplum 4.2 实现Hadoop处理

本文讲的是EMC升级Greenplum 4.2 实现Hadoop处理,大数据的问题不仅是因为它很大,还因为它一直在膨胀.比起传统的数据仓库,它需要更现代的Hadoop MapReduce 数据处理.EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据. 如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise

多云未来,Hadoop何去何从?

Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟.尤其在过去三年里,它得到前所未有的发展,并被很多公司大规模采用.然而时代在变化,Hadoop在多云的未来该何去何从? 根据市场调研公司Forrester估计,2017年用户将在Hadoop软件和相关服务上花费8亿美元.这并不奇怪,因为在过去这段时间里,Hadoop供应商们充分利用Cloudera. Hortonworks.和MapR等产品使Hadoop家喻户晓.但是,时代在变化

Hadoop之父勾勒大数据平台的未来

Apache Haddo是一个批处理计算引擎,它是大数据核心的开源软件框架.Hadoop并不适用于真正实时数据可见性所需要的在线互动式数据处理,是这样的吗?Hadoop创造者兼Apache Hadoop项目创始人(同时也是Cloudera公司首席架构师)Doug Cutting表示,他相信Hadoop有一个超越批处理的未来. Cutting表示:"批处理有用武之地,例如你需要移动大量数据以及分析所有数据的时候,但我认为,人们真正想要的是批处理和在线计算的结合体.Hadoop将成为企业未来的主流数