搜索账号 排行榜客户端 Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱

摘要:谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作。

谷歌正在为其一项令人兴奋的产品揭开面纱,它可能成为数据库工程史上的又一个壮举,这就是一个名为Mesa的数据仓库系统,它可以处理几乎实时的数据,并且即使一整个数据中心不幸脱机也可以发挥它的性能。谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示其关于Mesa的论文。

该篇论文的摘要非常简练的概括了Mesa建立的意义和它所具备的的能力:

“Mesa是一个高度可扩展的分析数据仓库系统,它存储着涉及谷歌网络广告业务的关键度量数据。 Mesa被设计以满足用户和系统的各种复杂有挑战性的需求,这其中包括近乎实时的数据提取和查询能力,以及满足对大规模数据和查询数量的高度可调用性、可靠性、容错性和可延展性。具体来讲,Mesa处理PB(Petabytes)级数据,每秒处理数百万行的更新,并且服务于十亿量级的查询,这些查询每天需要提取数万亿行数据。Mesa是跨多个数据中心、地缘重复的(geo-replicated)系统,并且即使在一个数据中心整体崩溃的情况下,仍可以低延迟提供一致、可重复的查询结果。”

本质上,Mesa是一个ACID兼容的数据库(换言之,如果一个人查询,他会得到正确数据),这样构造是从速度、尺度和可靠性方面进行考量的。正如上面所述,它的设计理念是用来处理关于谷歌广告业务的相关需求(服务于内部用户和面向用户的前端查询服务),但是也可以在其他场合作为通用数据仓库系统来运行。

如果你仍在质疑为什么在已经有了琳琅满目的其他数据库系统之后谷歌仍然非要建立Mesa,那么该篇论文作者的以下解释或许可以让你茅塞顿开:

“BigTable无法提供Mesa的应用所需的原子性(atomicity)。Megastore, Spanner和F1(这三个都是旨在完成在线交易过程)确实可以对于地缘重复的数据提供强大的一致性,但是它们不支持Mesa客户所需要的峰值更新吞吐量。与此同时,Mesa却可以利用BigTable和Spanner下的Paxos技术对元数据(metadata)实现存储和维护。

谷歌另有一个名为Dremel的系统,它是BigQuery服务的基础,目的是为只读数据提供快速、特定的查询。该篇文章也注意到由供应商、Facebook和 Twitter搭建的多种数据库系统,但是同时指出它们是为大规模数据载入设计的,而在Mesa中载入同样数据只需要几分钟。该论文中也提到:“Vertica是与Mesa功能接近的系统,即支持对交易数据进行动态更新、实时查询。”

“然而,”该文继续指出,“就我们所知,这些商业产品或者产品系统中没有一个是用来管理跨多个数据中心的重复数据集的。并且也尚不能断言这些系统是否真的允许云计算或者具有弹性。他们可能会有以有限能力来动态配置或者停用资源来处理载入波动。

图6:在一个多数据中心Mesa的配置中的更新过程

该论文详述了Mesa工作的机制:即以表格形式的数据存储方式、数据查询方式和分布的架构——其中一个极为有趣的部分是关于硬件。文中提出了如下观点: Mesa的前身系统是在扩展代价昂贵的企业级硬件上运行的,而Mesa运行于谷歌的标准云设备,据推测是由谷歌自行研发并建造的。

从长远看,Mesa应该可以被证明不仅仅是另一个数据仓库系统。Hadoop社区的成员——尤其是Cloudra的MikeOlson 和DougCutting对此的观点是:谷歌正在探索Hadoop可能开发出的新方向,他们相信一个高质量开源版本的Mesa将会很可能受到热捧。

当然到了那个时候,就会有云计算的一席之地了。随着谷歌继续以开疆拓土的姿态面对亚马逊网络服务和微软Azure的分羹,技术将变得和低廉的价格一样举足轻重。谷歌的声名鹊起主要归功于它的尖端分布式系统,但是它所开发的诸如Mesa这样的服务(同样的还有BigQuery和Dataflow)将会成为和云竞争者之间角力的重要砝码。

您可以观看以下的视频来获取谷歌SVP和技术人员Urs Hölzle在今年六月的结构大会(Structure conference)上关于谷歌设备的介绍。Structure 2014: Google cloudplatform: lessons learned from the world's largest cloud https://www.youtube.com/watch?v=I9R4P0TLViA

原文发布时间为:2014-08-21

时间: 2024-08-06 00:44:51

搜索账号 排行榜客户端 Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱的相关文章

MESA:谷歌揭开跨中心超速数据仓库的神秘面纱

摘要: 谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作. 谷歌正在为其一项令人兴奋的产品揭开面纱,它可能成为数据库工程史上的又一个壮举,这就是一个名为Mesa的数据仓库系统,它可以处理几乎实时的数据,并且即使一整个数据中心不幸脱机也可以发挥它的性能.谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示其关于Mesa的论文. 该篇论文的摘要非常简练的概括了Mesa建立的意义和它所具备

搜索账号 排行榜客户端 2014全球可穿戴设备市场应用报告分析

BI分析师托尼·达诺瓦(Tony Danova)发布的<可穿戴应用>报告中指出,可穿戴应用的生态系统非常碎片化,这是应用少的原因之一,但要普及必须诞生一些杀手级应用.谷歌和苹果将主导这个市场. 以下为报告全文: 一.要点: 1) -可穿戴应用的生态系统非常碎片化.最近推出了很多全新的可穿戴设备,还有更多产品即将面世,但所有设备都运行于不同的平台.开发人员为这些环境打造应用成为一种痛苦,而应用程序正是使这些可穿戴设备值得穿戴的关键.即便是对于在智能手机和平板电脑领域主打Android的三星而言,

搜索账号 排行榜客户端 舍恩伯格最新演讲全文

6月19日上午消息,第十二届中国国际软件和信息服务交易会在大连世界博览广场开幕.本次会议时间为6月19日-22日,聚焦智慧城市.云计算.物联网等技术热点和产品服务,主题锁定为"智城市,酷生活". 维克托·迈尔·舍恩伯格:最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一.他曾先后任教于世界最著名的几大互联网研究学府.现任牛津大学网络学院互联网治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中心网络监管项目负责人:曾任新加坡国

搜索账号 排行榜客户端 去IOE的另外一条路径:全内存数据库弯道超车

老祖宗留下了<易经>这本书,告诉我们世界的本质是"变化"的,"变化"之间有相关性.比如云计算的兴起是由于计算机的带宽快速增加引起的,大数据的兴起是由于数字化进程引发的. 当今的IT界最重要的"变化"就是摩尔定律.曾几何时,程序员们沉醉于用C语言精妙的语句节省了数KB 内存空间,现在大家都用上了逻辑更加清楚.更易于大规模协作的JAVA,而对语言效率看得不那么重要.计算和存储能力变得越来越廉价的"变化"引发了其上软件产

搜索账号 排行榜客户端 癌症研究中大数据能做的五件事

1. 帮助指导使用已通过的癌症药物 虽然临床试验为医生们提供了许多药物如何发挥作用的有用信息,但是大概只有2%的癌症患者参与了临床试验. 事实上,每天都有成千上万的患者接受诊断和治疗.这意味着其实我们可以从中获得大量的重要数据,来帮助医生与病人在面对不同治疗方案及其可能的结果时做出更好的选择. 美国临床肿瘤学会ASCO发起建立一个数据库:CancerLinQ,旨在获取这些数据.它能将数据提供给医生们, 为他们提供实时的治疗建议.美国基因泰克公司(Genentech)的科学家和医生们都对能帮助AS

Biz Stone 今天终于揭开了他的 Jelly 的神秘面纱

Twitter 联合创始人 Biz Stone 今天终于揭开了他的 Jelly 的神秘面纱,一个基于图片的社交问答移动社区,用户可以使用拍摄的图片作为问题,邀请朋友帮助他解答关于图片的具体问题. 从今早 Jelly 浮出水面开始,业界对于这个应用的评价也是褒贬不一,同时也有很多人疑问重重.但在与 Stone 交流过后,我觉得 Jelly 背后其实有更加独特和野心颇大的目标,最主要的就是增强用户的对周边世界的感情投入,使得回答任何问题的过程变得比问题本身更有意义. 用户使用 Jelly 来帮助别人

揭开私服发布站推广的神秘面纱

相信大家都玩过游戏私服,那么我们从哪里找到私服的呢?对了!当然是私服发布站.好多人认为私服发布站是一个很神秘的行业.开过私服的业主大家都知道发布站是个暴利的行业,正是因为暴利才吸引了越来越多的人蜂拥而至.但是成功的总是少之又少,现在这个情况基本上是原来做的好的有经验的老站已经把市场给垄断,当一个新的网游私服出现的时候他们会迅速做出反应利用自身的经验和强大的财力,很快就占领了市场.由于暴利导致好多外行人走进其中而且好多人还是愿意往其中砸钱,但是由于经验的缺乏砸了钱到头来可能什么都没有得到,竹篮打水

为你揭开阿里云公安备案的神秘面纱!公安备案之新办网站申请-

在揭开之前咱们要搞明白三个问题: 一:公安备案和icp备案的区别  引用 ICP备案和公.安部备案一样都属国家要求的网站备案的一种.公安局备案一般按照各地公安机关指定的地点和方式进行.网站备案的目的就是为了防止在网上从事非法的网站经营活动,打击不良互联网信息的传播.两者不相冲突,无论企业是否有做过ICP备案,只要接到公安局备案电话,就得按要求去办理备案手续.  二:为什么要公安备案  引用 根据<中国人民共和国计算机信息系统安全保护条例>以及<计算机信息网络国际联网安全保护管理办法>

美国Godaddy主机商揭开超级碗星期天广告的神秘面纱

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 "超级碗"(Super Bowl)即美国国家橄榄球联盟的年度冠军赛,一般在每年1月最后一个或2月第一个星期天举行,所以这一天也称为超级碗星期天(Super Bowl Sunday).今年已是3721.html">2014年1月23日了,这周日就是1月的最后一个星期天,也即是第48届的超级碗星期天即将到来.&