谷歌新系统Dremel让大数据处理更加便捷

马克·奥尔森是Hadoop运动背后的主要人物之一。但是连他都开始向谷歌内部正在孕育并使用的“大数据”工具看齐。图片来源:Wired.com/Jon Snyder

马克·奥尔森管理的一家公司专注于当前世界上最火的软件。他是Clodera公司的CEO,这家硅谷初创公司经营着开源软件平台Hadoop,它的基础,正是谷歌赖以统治网络(搜索)世界的技术。

外界预期到2016年,将由超过8.13亿美元的软件运行在Hadoop上。但是现在就连奥尔森自己都说这个消息过时了。

Hadoop起源自谷歌在2003年底和2004年发表的两篇学术论文。第一篇介绍了谷歌的文件系统,将海量的数据保存在上千台普通廉价的PC上;第二篇论文介绍了MapReduce算法,将所有服务器中的处理器有效的利用起来计算(保存在谷歌文件系统中的海量)数据并得到想要的结果。八年之后,Hadoop得到了广泛的使用,(应用范围)从数据分析到各种这样的数值计算任务等等。但是谷歌并没有停下自己的脚步。

从2009年开始,搜索巨人开始使用新技术替换现有的GFS和MapReduce,而麦克·奥尔森会告诉你这些技术将是未来的发展方向。“如果你想知道未来的大规模、高性能数据处理架构是什么样子的,我的建议是现在就去读谷歌的研究论文,”奥尔森在最近的一次专题讨论会中告诉连线杂志。

在Hadoop兴起之后,谷歌发表了三篇值得注意的文章,内容关于支持谷歌大规模网页操作的底层架构。一篇详细介绍了Caffeine,谷歌网络搜索引擎索引构建平台。第二篇关于Pregel,一个用于映射大量线上信息之间关系的“图数据库”。最吸引人的是一篇介绍Dremel工具的文章。

“如果你之前告诉我Dremel声称能做到的功能,我不太会相信你会实现它,”加州大学伯克利分校计算机系教授Armando Fox说。Fox教授专门研究数据中心级的软件平台。

Dremel是一种分析数据的(新)方法。它运行在上千台服务器上,让你能够在大数据上——例如网页文档集合、数字图书馆、百万规模的垃圾信息等——执行“查询”操作。这有点类似于过去传统的数据库上执行SQL操作,过去几十年SQL(结构化查询语言)得到了广泛的应用。比如说你有一个数字图书的集合,那么你可以自己建立一个查询,返回给你所有作者的名单,或者涉及某个特定领域的作者的列表。

“这是一个类似SQL风格的语言,让你能够在不编程的前提下轻松的定义(你需要的)特定的查询或重复的查询。你只需要把查询(命令)输入命令行,”管理谷歌基础架构的Urs Hölzle说。

(与SQL的)不同之处在于Dremal在极快的时间内处理像网页集合这样规模的数据。谷歌的论文中给出的数据说你能够在几秒钟之内查询数PB的数据(PB等于一百万GB)。

Hadoop已经提供了相应工具,能够在大数据集上运行类SQL查询。Hadoop的姊妹项目asPig和Hive就是专门为这个目的而建立。但是Hadoop有一个延迟时间。它是一个用来进行“批处理”的平台。你扔给它一个任务,它需要几分钟或几个小时来运行,之后你才能拿到结果。 Dremel,是专门针对即时查询的。

“Dremel能够在大数据上同时执行多个查询操作。以前则需要写一系列的MapReduce任务,运行时间也比Dremel多得多。Dremel在一个PB级别的数据上进行查询只需要三秒钟。” Urs Hölzle援引谷歌Dremel论文(中的数据)说。

Armando Fox表示这是史无前例的。Hadoop是“大数据”时代的杰作,用来构建分析超大规模信息的工具。但是现在的大数据工具往往存在一些缺点。你不能指望在大数据(工具)上的查询能够达到传统数据库或商业智能工具的精度和速度。但是Fox说Dremel将能做到这一点。

“他们(的工作)既能进行大规模的分析有能够深入的查看数据,这是我以前觉得不可能的事情,”他说,“能够处理的数据的规模和处理数据的时间让人印象深刻。以前人们也开发过不同的大数据系统,但是还没有哪个系统能够像Dremel一样能够如此快速的处理如此多的数据。”

“一般来说,(速度和规模)你只能二选一。侧重这边就要放弃那边。但是Dremel做到了两者兼顾。”

从论文中看出早在2006年这个系统就已经在谷歌内部使用了,“数千个”谷歌员工用它来分析从软件崩溃报告、各种谷歌服务数据到数据中心内部硬盘行为数据等所有事情。这个系统经常在数十台甚至数千台机器上运行。

Hadoop的成功是无可否认的,但是Clodera CEO迈克·奥尔森觉得(跟谷歌相比)开发这个平台的公司和开发人员有些落后了。在Dremel上我们看到了同样的事情。谷歌在2010年发表了Dremel,但是我们仍然需要很长的时间才能看到由第三方开发人员仿制的系统出来。一个来自以色列的工程团队正在构造一个叫做OpenDremel的类似系统,虽然开发人员之一David Gruzman说他们中断了很长时间,现在才开始编码。

迈克·米勒是华盛顿大学粒子物理学合聘教授,同时也是Cloudant公司首席科学家。这家公司需要解决的数据问题与谷歌这些年遇到的问题有很多相似点。我们很惊讶一家旨在逆向Dremel的初创公司得到了若干知名风投的支持。

即使你不是谷歌员工 ,如今可以使用Dremel了。谷歌现在提供了一个基于Dremel的网页服务BigQuery。你可以通过网页API使用这个平台。基本上只要上传了你的数据就可以利用谷歌的内部架构来执行查询了。

这是谷歌提供的越来越多的云服务的一部分。起初谷歌允许你通过GAE在谷歌的架构上编译、运行整个应用程序,而现在增加了对包括BigQuery和Google Compute Engine(用于即时访问虚拟服务器)在内的大量工具。

谷歌走在了世界前列。而他正在促进世界上其它的公司进步。

Cade Metz是连线企业版的编辑。对本文感兴趣?给他发电邮吧: cade_metz at wired.com。

(责任编辑:吕光)

时间: 2024-08-09 00:07:10

谷歌新系统Dremel让大数据处理更加便捷的相关文章

广告系统中的大数据处理 | 宋慧庆

什么是大数据? 从具备4V(Volume,Velocity,Variety,Value)特征的大量数据中挖掘用户的潜在价值. 广告系统的数据来源 DSP监听数据(主要是ssp,adx渠道) 广告主数据 广告投放过程中收集的数据 购买/通过交换得到的第三方数据 运营商合作数据 精准广告的系统特点 数据量巨大(广告本身的数据,定向数据,用户特征数据,广告展示环境的特征数据) 响应速度要求特别快 实时性要求特别高(广告数据,定向数据,用户特征数据,广告展示环境的特征数据等实时性) 系统可用性要求特别高

大数据处理系统关键层次架构

在数据存储层,还有很多类似的系统和某些系统的变种,这里,我仅仅列出较为出名的几个.如漏掉某些重要系统,还请谅解. 以下是对上图中各层次架构的说明 一.数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolation).持久性(Durability).ACID中的一致性要求比较强,事务执行的结果必须是使数据

大数据处理系统是一个IT工具,还是业务系统呢?

对于企业的业务人员,特别是数据科学家人群来说,Informatica的Intelligent Data Platform不仅是一个智能化的大数据预处理工具,而且可以像业务系统一样为企业带来直接的价值. 互联网企业通常会强调细节和微创新,把产品的某一项功能做到极致,借此牢牢吸引大量用户.但是企业级厂商则不同,它们更倾向于将产品平台化.平 台化的好处是可以把尽量多的功能集成在一起,方便部署与管理,而且可以借平台屏蔽底层架构的复杂性.软件厂商尤喜平台化,比如数据保护厂商有数据保护和统 一管理平台,大数

安卓用户爽翻:详解Android 5.0系统的十大新特性

距离Android系统上一次重大更新不到一年的时间,谷歌再一次从KitKat升级到了Lollipop,而两次都使用糖果来命名,营销的目的显露无遗.当我们首次看到Android 5.0 Lollipop这个名字的时候,就已经意识到这将是Android系统有史以来变化最大的一次升级.首先,在感官界面设计上,我们彻底迎来了Android系统的扁平化时代,新的系统不仅使用了新的配色,同时看起来也很时尚.未来我们相信包括三星的TouchWiz或LG的Optimus自定义UI都会遵循Lollipop的新风格

《财富》:Android系统成FB抗衡谷歌新武器

硅谷网讯 据国外媒体报道,Facebook当地时间周四在加州门罗帕克的总部召开新闻发布会,Facebook CEO马克-扎克伯格(Mark Zuckerberg)亲自上台发布了基于Android操作系统定制的"Home"社交桌面界面,同时发布的还有与HTC合作的新社交手机HTC First.对于Facebook的这一举动,知名<财富>杂志高级撰稿人麦格尔-赫尔福特(Miguel Helft)日前表示,虽然Facebook Home仍然同Android系统有着密不可分的关系,

大数据处理服务商亚讯星科新三板挂牌上市

3月8日消息,全国中小企业股份转让系统公告显示,亚讯星科的挂牌申请获得批准,并于今日公开转让,证券代码为:836191. 公告显示,亚讯星科2013年度.2014年度.2015年1-7月营业收入分别为570.07万元.549.89万元.383.88万元:净利润分别为15.51万元.39.61万元.57.04万元. 亚讯星科(成都亚讯星科科技股份有限公司)成立于2003年12月11日,是一家为通信运营商提供大数据处理服务的企业,主要利用大数据挖掘分析手段对运营商网络上的信令数据.业务订购数据.渠道

雅虎朱金生:2013年大数据处理新趋势

[IT168 专稿]2013年4月18-20日,第四届中国数据库技术大会(DTCC 2013)将于北京福朋喜来登酒店拉开序幕.大会将秉承分享IT最佳应用实践的宗旨,围绕大数据应用.数据架构.数据管理(数据治理).传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享.本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据.数据结构.数据治理与分析.商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要. 自2010年以来,国内领先的IT专业网站IT16

大数据处理分析的六大最好工具

大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理.该数据集通常是万亿或EB的大小.这些数据集收集自各种各样的来源:传感器.气候信息.公开的信息.如杂志.报纸.文章.大数据产生的其他例子包括购买交易记录.网络日志.病历.事监控.视频和图像档案.及大型电子商务.大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策. Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架

如何为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU.内存.网络以及存储之间的性能平衡.而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在. 关于Hadoop "大数据"是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理.大数据是结构化或非结构化的多种数据类型的大集合.而Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管