MESA:谷歌揭开跨中心超速数据仓库的神秘面纱

摘要: 谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作。

谷歌正在为其一项令人兴奋的产品揭开面纱,它可能成为数据库工程史上的又一个壮举,这就是一个名为Mesa的数据仓库系统,它可以处理几乎实时的数据,并且即使一整个数据中心不幸脱机也可以发挥它的性能。谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示其关于Mesa的论文。

该篇论文的摘要非常简练的概括了Mesa建立的意义和它所具备的的能力:

“Mesa是一个高度可扩展的分析数据仓库系统,它存储着涉及谷歌网络广告业务的关键度量数据。 Mesa被设计以满足用户和系统的各种复杂有挑战性的需求,这其中包括近乎实时的数据提取和查询能力,以及满足对大规模数据和查询数量的高度可调用性、可靠性、容错性和可延展性。具体来讲,Mesa处理PB(Petabytes)级数据,每秒处理数百万行的更新,并且服务于十亿量级的查询,这些查询每天需要提取数万亿行数据。Mesa是跨多个数据中心、地缘重复的(geo-replicated)系统,并且即使在一个数据中心整体崩溃的情况下,仍可以低延迟提供一致、可重复的查询结果。”

本质上,Mesa是一个ACID兼容的数据库(换言之,如果一个人查询,他会得到正确数据),这样构造是从速度、尺度和可靠性方面进行考量的。正如上面所述,它的设计理念是用来处理关于谷歌广告业务的相关需求(服务于内部用户和面向用户的前端查询服务),但是也可以在其他场合作为通用数据仓库系统来运行。

如果你仍在质疑为什么在已经有了琳琅满目的其他数据库系统之后谷歌仍然非要建立Mesa,那么该篇论文作者的以下解释或许可以让你茅塞顿开:

BigTable无法提供Mesa的应用所需的原子性(atomicity)。Megastore, Spanner和F1(这三个都是旨在完成在线交易过程)确实可以对于地缘重复的数据提供强大的一致性,但是它们不支持Mesa客户所需要的峰值更新吞吐量。与此同时,Mesa却可以利用BigTable和Spanner下的Paxos技术对元数据(metadata)实现存储和维护。

谷歌另有一个名为Dremel的系统,它是BigQuery服务的基础,目的是为只读数据提供快速、特定的查询。该篇文章也注意到由供应商、Facebook和 Twitter搭建的多种数据库系统,但是同时指出它们是为大规模数据载入设计的,而在Mesa中载入同样数据只需要几分钟。 该论文中也提到:“Vertica是与Mesa功能接近的系统,即支持对交易数据进行动态更新、实时查询。”

“然而,”该文继续指出,“就我们所知,这些商业产品或者产品系统中没有一个是用来管理跨多个数据中心的重复数据集的。并且也尚不能断言这些系统是否真的允许云计算或者具有弹性。他们可能会有以有限能力来动态配置或者停用资源来处理载入波动。

图6: 在一个多数据中心Mesa的配置中的更新过程

该论文详述了Mesa工作的机制:即以表格形式的数据存储方式、数据查询方式和分布的架构——其中一个极为有趣的部分是关于硬件。文中提出了如下观点: Mesa的前身系统是在扩展代价昂贵的企业级硬件上运行的,而Mesa运行于谷歌的标准云设备,据推测是由谷歌自行研发并建造的。

从长远看,Mesa应该可以被证明不仅仅是另一个数据仓库系统。Hadoop社区的成员——尤其是Cloudra的Mike Olson 和Doug Cutting对此的观点是:谷歌正在探索Hadoop可能开发出的新方向,他们相信一个高质量开源版本的Mesa将会很可能受到热捧。

当然到了那个时候,就会有云计算的一席之地了。随着谷歌继续以开疆拓土的姿态面对亚马逊网络服务和微软Azure的分羹,技术将变得和低廉的价格一样举足轻重。 谷歌的声名鹊起主要归功于它的尖端分布式系统,但是它所开发的诸如Mesa这样的服务(同样的还有BigQuery和Dataflow)将会成为和云竞争者之间角力的重要砝码。

原文发布时间为:2014-09-20

时间: 2025-01-20 13:56:53

MESA:谷歌揭开跨中心超速数据仓库的神秘面纱的相关文章

搜索账号 排行榜客户端 Mesa——谷歌揭开跨中心超速数据仓库的神秘面纱

摘要:谷歌近期发表了一篇关于最新大数据系统的论文,是关于Mesa这一全球部署的数据仓库,它可以在数分钟内提取上百万行,甚至可以在一个数据中心发生故障时依然运作. 谷歌正在为其一项令人兴奋的产品揭开面纱,它可能成为数据库工程史上的又一个壮举,这就是一个名为Mesa的数据仓库系统,它可以处理几乎实时的数据,并且即使一整个数据中心不幸脱机也可以发挥它的性能.谷歌工程师们正在为下个月将在中国举行的盛大的数据库会议准备展示其关于Mesa的论文. 该篇论文的摘要非常简练的概括了Mesa建立的意义和它所具备的

Biz Stone 今天终于揭开了他的 Jelly 的神秘面纱

Twitter 联合创始人 Biz Stone 今天终于揭开了他的 Jelly 的神秘面纱,一个基于图片的社交问答移动社区,用户可以使用拍摄的图片作为问题,邀请朋友帮助他解答关于图片的具体问题. 从今早 Jelly 浮出水面开始,业界对于这个应用的评价也是褒贬不一,同时也有很多人疑问重重.但在与 Stone 交流过后,我觉得 Jelly 背后其实有更加独特和野心颇大的目标,最主要的就是增强用户的对周边世界的感情投入,使得回答任何问题的过程变得比问题本身更有意义. 用户使用 Jelly 来帮助别人

为你揭开阿里云公安备案的神秘面纱!公安备案之新办网站申请-

在揭开之前咱们要搞明白三个问题: 一:公安备案和icp备案的区别  引用 ICP备案和公.安部备案一样都属国家要求的网站备案的一种.公安局备案一般按照各地公安机关指定的地点和方式进行.网站备案的目的就是为了防止在网上从事非法的网站经营活动,打击不良互联网信息的传播.两者不相冲突,无论企业是否有做过ICP备案,只要接到公安局备案电话,就得按要求去办理备案手续.  二:为什么要公安备案  引用 根据<中国人民共和国计算机信息系统安全保护条例>以及<计算机信息网络国际联网安全保护管理办法>

揭开私服发布站推广的神秘面纱

相信大家都玩过游戏私服,那么我们从哪里找到私服的呢?对了!当然是私服发布站.好多人认为私服发布站是一个很神秘的行业.开过私服的业主大家都知道发布站是个暴利的行业,正是因为暴利才吸引了越来越多的人蜂拥而至.但是成功的总是少之又少,现在这个情况基本上是原来做的好的有经验的老站已经把市场给垄断,当一个新的网游私服出现的时候他们会迅速做出反应利用自身的经验和强大的财力,很快就占领了市场.由于暴利导致好多外行人走进其中而且好多人还是愿意往其中砸钱,但是由于经验的缺乏砸了钱到头来可能什么都没有得到,竹篮打水

美国Godaddy主机商揭开超级碗星期天广告的神秘面纱

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 "超级碗"(Super Bowl)即美国国家橄榄球联盟的年度冠军赛,一般在每年1月最后一个或2月第一个星期天举行,所以这一天也称为超级碗星期天(Super Bowl Sunday).今年已是3721.html">2014年1月23日了,这周日就是1月的最后一个星期天,也即是第48届的超级碗星期天即将到来.&

利用谷歌本地商户中心轻松获得高排名

谷歌在2006年3月20日推出了一个功能叫本地商户中心,这里有谷歌的官方介绍,这个功能可以让你的网站关键词轻松排到比谷歌搜索结果的第一位还靠前的位置,并且还有地图导航,http://www.aliyun.com/zixun/aggregation/31492.html">联系方式等内容,其图文并茂的效果相当吸引人,比其他的排名位置都要更加吸引人,不过这些词只能局限于自己当地的关键词,例如:青岛网站优化,上海网站制作,北京酒店等.例如我的一个网站搜索效果的效果如下: 相信每个人对这个效果都会

D-News | 中国发布首个VR标准,谷歌为数据中心研发SDN新架构Espresso

业界巨头谷歌为数据中心研发SDN新架构Espresso 近日,谷歌为其全球数据中心带来了一套名为"Espresso"新的SDN架构,可以通过第三方网络服务商为用户提升谷歌的服务速度.据悉,谷歌制定了覆盖数据中心.服务器.交换机,以及基础设施软件的网络方案,并且与70个世界大都市的ISP实现互联,产生的流量占据整个互联网流量的25%.谷歌指出,Espresso不仅可以为消费级用户带来更高性能,还能惠及选择Espresso的云服务公司. "看这架势,全民WiFi估计也快了&quo

谷歌等跨太平洋海底光缆项目进展:成本$5亿 中资持60%权益

3月16日消息,据国外媒体报道,中资公司将为谷歌和Facebook等合建的新跨太平洋互联网光缆项目提供资金,这将是首个由一家中资公司持有多数股权的此类项目. 谷歌等跨太平洋海底光缆项目进展:成本$5亿 中资持60%权益 现年56岁的韦俊康是这条连接洛杉矶与香港的光缆项目的主要赞助人,韦俊康之子韦振宇将牵头发展这个投资额5亿美元的项目.该项目仍有待监管机构批准. 韦振宇表示,韦俊康名下公司太平洋光缆数据通讯有限公司(Pacific Light Data Communication Co.)将持有该

英特尔雅虎和谷歌分享数据中心管理新方法

据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,公司数据中心的管理绝非易事,以下是业内巨头数据中心管理新方法的分享. 谷歌在全球有十多个数据中心.谷歌绿色能源项目负责人威尔(Bill Weihl)表示,公司最初的关注点是让其数据中心比一般的行业平均水平的效率更高.依据EPA(Ethernet for Plant Automation)标准,许多数据中心的综合电力使用效率值为2.0PUE (Power Usage Eff