Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Drem

Mike Olson是Hadoop运动背后的主要推动者,但这还远远不够,目前Google内部使用的大数据软件Dremel使大数据处理起来更加智能。

Mike Olson目前任职于世界上最热的软件专业公司——Cloudera(硅谷的创业企业),并担任Cloudera的首席执行官。Cloudera围绕开源软件平台Hadoop发展自身的业务,开源软件平台Hadoop已经使得Google变身网络上最主导的力量。

预计到2016年Hadoop将会推动软件市场,并创造8.13亿美元的价值。不过Mike Olson表示这已经是老新闻了。

Hadoop的火爆要得益于Google在2003年底和2004年公布的两篇研究论文,其中一份描述了GFS(Google File System),GFS是一个可扩展的大型数据密集型应用的分布式文件系统,该文件系统可在廉价的硬件上运行,并具有可靠的容错能力,该文件系统可为用户提供极高的计算性能,而同时具备最小的硬件投资和运营成本。

另外一篇则描述了MapReduce,MapReduce是一种处理大型及超大型数据集并生成相关执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。基于MapReduce编写的程序是在成千上万的普通PC机上被并行分布式自动执行的。8年后,Hadoop已经被广泛使用在网络上,并涉及数据分析和各类数学运算任务。但Google却提出更好的技术。

在2009年,网络巨头开始使用新的技术取代GFS和MapReduce。Mike Olson表示“这些技术代表未来的趋势。如果你想知道大规模、高性能的数据处理基础设施的未来趋势如何,我建议你看看Google即将推出的研究论文”。

自Hadoop兴起以来,Google已经发布了三篇研究论文,主要阐述了基础设施如何支持庞大网络操作。其中一份详细描述了Caffeine,Caffeine主要为Google网络搜索引擎提供支持。

在Google采用Caffeine之前,Google使用MapReduce和分布式文件系统(如GFS)来构建搜索索引(从已知的Web页面索引中)。在2010年,Google搜索引擎发生了重大变革。Google将其搜索迁移到新的软件平台,他们称之为“Caffeine”。Caffeine是Google出自自身的设计,Caffeine使Google能够更迅速的添加新的链接(包括新闻报道以及博客文章等)到自身大规模的网站索引系统中,相比于以往的系统,新系统可提供“50%新生”的搜索结果。

在本质上Caffeine丢弃MapReduce转而将索引放置在由Google开发的分布式数据库BigTable上。作为Google继GFS和MapReduce两项创新后的又一项创新,其在设计用来针对海量数据处理情形下的管理结构型数据方面具有巨大的优势。这种海量数据可以定义为在云计算平台中数千台普通服务器上PB级的数据。

另一篇介绍了Pregel,Pregel主要绘制大量网上信息之间关系的“图形数据库”。而最吸引人的一篇论文要属被称之为Dremel的工具。

专注于大型数据中心规模软件平台的加利福尼亚伯克利分校计算机科学教授Armando Fox表示“如果你事先告诉我Dremel可以做什么,那么我不会相信你可以把它开发出来”。

Dremel是一种分析信息的方式,Dremel可跨越数千台服务器运行,允许“查询”大量的数据,如Web文档集合或数字图书馆,甚至是数以百万计的垃圾信息的数据描述。这类似于使用结构化查询语言分析传统关系数据库,这种方式在过去几十年被广泛使用在世界各地。

Google基础设施负责人Urs Hölzle表示“使用Dremel就好比你拥有类似SQL的语言,并可以无需任何编程的情况下只需将请求输入命令行中就可以很容易的制定即席查询和重复查询”。

区别在于Dremel可以在极快的速度处理网络规模的海量数据。据Google提交的文件显示你可以在几秒的时间处理PB级的数据查询。

目前Hadoop已经提供了在庞大数据集上运行类似SQL的查询工具(如Hadoop生态圈中的项目Pig和Hive)。但其会有一些延迟,例如当部署任务时,可能需要几分钟的时间或者几小时的时间来执行任务,虽然可以得到查询结果,但相比于Pig和Hive,Dremel几乎是瞬时的。

Holzle表示Dremel可移执行多种查询,而同样的任务如果使用MapReduce来执行通差需要一个工作序列,但执行时间确实前者的一小部分。Dremel可在大约3秒钟时间里处理1PB的数据查询请求。

Armando Fox表示Dremel是史无前例的,Hadoop作为大数据运动的核心一直致力构建分析海量数据工具的生态圈。但就目前的大数据工具往往存在一个缺陷,与传统的数据分析或商业智能工具相比,Hadoop在数据分析的速度和精度上还无法相比。但目前Dremel做到了鱼和熊掌兼得。

Dremel做到了“不可能完成的任务”,Dremel设法将海量的数据分析于对数据的深入挖掘进行有机的结合。Dremel所处理的数据规模的速度实在令人印象深刻,你可以舒适的探索数据。在Dremel出现之前还没有类似的系统可以做的像Dremel这样出色。

据Google提交的文件来看,Google从2006年就在内部使用这个平台,有“数千名”的Google员工使用Dremel来分析一切,从Google各种服务的软件崩溃报告到Google数据中心内的磁盘行为。这种工具有时会在数十台服务器上使用,有时则会在数以千计的服务器上使用。

Mike Olson表示尽管Hadoop取得的成功不容置疑,但构建Hadoop生态圈的公司和企业显然慢了,而同样的情况也出现在Dremel上,Google在2010年公布了Dremel的相关文档,但这个平台还没有被第三方企业充分利用起来,目前以色列的工程团队正在建设被称为OpenDremel的克隆平台。David Gruzman表示OpenDremel目前仅仅还在开始阶段,还需要很长时间进行完善。

换句话说即使你不是Google的工程师你同样可以使用Dremel。Google现在提供的BigQuery的服务就是基于Dremel。用户可通过在线API来使用这个平台。用户可以把数据上传到Google,并在Google基础设施中运行用户的查询服务。而这只是Google越来越多云服务的一部分。

早期用户通过Google App Engine构建、运行、并将应用托管在Google基础设施平台之上。而现今Google提供了包括BigQuery和Google Compute Engine等服务和基础设施,这些服务和基础设施可使用户瞬时接入虚拟服务器。

全球很多技术都落后于Google,而Google自身的技术也正在影响全球。(CSDN 李智/编辑)

(责任编辑:蒙遗善)

时间: 2024-10-31 19:40:04

Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Drem的相关文章

拉锯?博弈?魅族“三驾马车”VS小米“铁人三项”

搜狐IT 文/宿艺魅族正经历公司历史上最大一次改变.在产能依然不足的困扰下,魅族2014年双十一手机销量同比2013年增长15倍,创造了天猫当天手机品类第三.单店成绩第九的销售纪录.不过魅族并不满足,如果产能再多给个几万台,魅族今年销量肯定能干过荣耀,不过这都不重要,魅族副总裁李楠对<壹观察>表示.李楠2012年受黄章之邀加盟魅族前,曾任NEC在线ERP工程师.Monstar-Lab日本移动社交网络应用和游戏产品经理,这也让其谙熟于新媒体营销.在魅族2014年初高层动荡之后,李楠开始走向前台,

后Hadoop时代的大数据架构

背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理.适合处理非结构化数据,包括HDFS,MapReduce基本组件. HDFS:提供了一种跨服务器的弹性数据存储系统. MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出. Amazon Elastic Map Reduce(EMR): 托

阿里集团明确五新战略三驾马车:基础设施落地 战略思维输出 投资拉动

北京时间11月15日,阿里巴巴集团首席执行官张勇宣布,阿里集团为更聚焦五新战略,将升级组织保障.阿里集团将在强化现有的新零售战略部署的前提下,明确五新战略的三驾马车:基础设施落地.战略思维输出.生态圈投资拉动.以全球化为核心,在关键领域和关键岗位上部署得力人才及组织队形,确保五新战略的高效运转和加速实施. 阿里巴巴集团CEO张勇 对于阿里巴巴集团而言,刚刚收官的2017年双11全球狂欢节的意义不仅在于收获了1682亿的交易数字,而是它充分证明了阿里集团选择新零售作为系统战略落地实施突破口的正确性

英特尔诺基亚联盟:后wintel时代的新寡头

苹果的iPhone奇迹,一直是诺基亚的一块心病.现在诺基亚想在新领域也开发一款具有iPhone效应的"全新的产品"-不是智能手机,不是上网本,而是完全按照移动互联网要求开发的产品:口袋大小.24小时待机.永远在线和具有强大的移动应用.可以说,"新的产品将完全按照移动互联网对终端设备的要求去开发设计." <时代周报>记者 李瀛寰 发自北京 因为有"2006年高调合作而未成功"一事在前,这一次,英特尔与诺基亚的合作,显得低调,而且业界反响

后Hadoop时代,我们该如何去架构自己的大数据平台

过去数年,大数据开源生态圈完成了从无到有的转变,时下更是各种技术框架林立--从收集到处理,一直到数据可视化和储存,每个点都或多或少存在多个不同的替代方案.那么,在这个Hadoop已经不是唯一的时代,企业又该如何选择开源大数据技术,来架构一个稳定可靠的大数据平台? 2016年10月27日,特邀请了kyligence创始人兼CEO韩卿 & 阿里云技术专家曹龙与大家一起共同探讨这个问题,点击这里直接报名. Hadoop老矣? 对于大数据玩家来说,Hadoop绝不陌生,正式立项于2006年,Doug C

新网三驾马车联动三地合作伙伴相聚,同新网“赢•聚

中介交易 SEO诊断 淘宝客 云主机 技术大厅 2014年6月6日,"'赢•聚变'2014新网全国巡回合作伙伴大会"走进深圳,集结深圳.广州.东莞三地合作伙伴相聚于深圳圣廷苑酒店,以最利好且稳定的合作政策.更具竞争力和极高性价比产品.全方位的专享"心服务"三驾马车,为合作伙伴提供更稳定更广阔的发展空间.会上,".在线"域通联达注册局首席执行官和联合创始人ArtoIsokoski易书麟先生.".在线"域通联达注册局首席营销官Si

白智生:后金融危机时代关注新政策和举措

白智生:后金融危机时代 关注新政策和举措 主持人:各位 网友大家好,欢迎收看达沃斯系列访谈,我是明朗.2010夏季达沃斯论坛将于9月13日到15日在天津召开,为了让各位网友更深入的了解参会企业如何以国际化的视野融入世界论坛大家庭,我们特别制作了这档节目--< 对话新领军者>.今天我们非常荣幸地请到了天津农垦集团总公司董事长白智生.欢迎您,白总! 白智生:各位北方网的网友,大家好! 后金融危机时代关注新政策和举措 主持人:您觉得今年夏季达沃斯与往届相比,是在怎样一种经济背景下举行的? 白智生:今

押注Fintech,打造消费金融三驾马车,招行想这样走完转型下半场

在说到金融业一个重要"风口"消费金融时,其中的佼佼者招行银行总是屡屡被提及. 雷锋网(公众号:雷锋网)获悉,8月31日,在银监会召开的第127场银行业例行新闻发布会上,招商银行副行长刘建军以"招行做大做强消费金融驶向蓝海"为主题进行了演讲,介绍了招商银行在金融科技及消费金融方面的发展及布局情况.  目前,招行消费金融形成了攻防有道的立体格局."攻"的具体布局体现在,招行整合行内零售信贷部与信用卡中心资源,此外与中国联通合资成立了招联消费金融公司,

大数据那些事(2):三驾马车之永垂不朽的GFS

但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable.如果我们拉长时间轴到20年为一个周期来看呢,这三驾马车到今天的影响力其实已然不同. MapReduce作为一个有很多优点又有很多缺点的东西来说,很大程度上影响力已经释微了.BigTable以及以此为代表的各种KeyValue Store还有着它的市场,但是在Google内部Spanner作为下一代的产品,也在很大程度上开始取代各种各样的的BigTab