那些年Google公开的大数据领域论文

Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始人兼首席数据科学家。在其个人博客上总结了Google近几年大数据领域的论文,并发表了自己的见解。

  以下为译文:

  

  主流的大数据基本都是MapReduce的衍生,然而把目光聚焦到实时上就会发现:MapReuce的局限性已经渐渐浮现。下面将讨论一下自大数据开始,Google公布的大数据相关技术,以及这些技术的现状。

  MapReuce、Google File System以及Bigtable:大数据算法的起源

  按时间算第一篇的论文应该2003年公布的 Google File System,这是一个分布式文件系统。从根本上说:文件被分割成很多块,使用冗余的方式储存于商用机器集群上;这里不得不说基本上Google每篇论文都是关于“商用机型”。

  紧随其后的就是2004年被公布的 MapReduce,而今MapReuce基本上已经代表了大数据。传说中,Google使用它计算他们的搜索索引。而Mikio L. Braun认为其工作模式应该是:Google把所有抓取的页面都放置于他们的集群上,并且每天都使用MapReduce来重算。

  Bigtable发布于2006年,启发了无数的NoSQL数据库,比如:Cassandra、HBase等等。Cassandra架构中有一半是模仿Bigtable,包括了数据模型、SSTables以及提前写日志(另一半是模仿Amazon的Dynamo数据库,使用点对点集群模式)。

  Percolator:处理个体修改

  Google并没有止步于MapReduce。事实上,随着Internet的指数增长,从零开始重算所有搜索索引变得不切实际。取而代之,Google开发了一个更有价值的系统,同样支持分布式计算。

  这也是其有趣的地方,特别是在对比常见的主流大数据之后。举个例子,Percolator引入了事务,而一些NoSQL数据库仍然在强调得到高扩展性的同时你必须牺牲(或者不再需要)事务处理。

  在2010年这篇 Percolator的论文中,Google展示了其网络搜索是如何保持着与时俱进。Percolator建立于已存类似Bigtable的技术,但是加入了事务以及行和表上的锁和表变化的通知。这些通知之后会被用于触发不同阶段的计算。通过这样的方式,个体的更新就可以“渗透”整个数据库。

  这种方法会让人联想到类似Storm(或者是Yahoo的S4)的流处理框架(SPF),然而Percolator内在是以数据作为基础。SPF使用的一般是消息传递而不是数据共享,这样的话更容易推测出究竟是发生了什么。然而问题也随之产生:除非你手动的在某个终端上储存,否则你将无法访问计算的结果。

  Pregel:可扩展的图计算

  最终Google还需要挖掘图数据,比如在线社交网络的社交图谱;所以他们开发了 Pregel,并在2010年公布其论文。

  Pregel内在的计算模型比MapReduce复杂的多:基本上每个节点都拥有一个工作者线程,并且对众多工作者线程进行迭代并行。在每一个所谓的“superstep”中,每一个工作者线程都可以从节点的“收件夹”中读取消息和把消息发送给其它节点,设置和读取节点相关值以及边界,或者投票停止。线程会一直运行,直到所有的节点都被投票停止。此外,还拥有Aggregator和Combiner做全局统计。

  论文陈述了许多算法的实现,比如Google的PageRank、最短路径、二分图匹配等。Mikio L. Braun认为,对比MapReduce或SPF,Pregel需要更多实现的再思考。

  Dremel:在线可视化

  在2010年,Google还公布了 Dremel论文。一个为结构化数据设计,并拥有类SQL语言的交互式数据库。然而取代SQL数据库使用字段填补的表格,Dremel中使用的是类JSON格式数据(更准确的说,使用Google Protocol buffer格式,这将加强对允许字段的限制)。内部,数据被使用特殊格式储存,可以让数据扫描工作来的更高效。查询被送往服务器,而优秀的格式可以最大性能的输出结果。

  Spanner:全球分布

  最后 Spanner—— 全球分布式数据库;Google在2009年提出了Spanner远景计划,并在2012年对外公布Spanner论文。Spanner的公布可以说是Google向大数据技术中添的又一把火,Spanner具有高扩展性、多版本、全球级分布以及同步复制等特性。

  跨数据中心的高扩展性及全球分布会对一致性保障提出苛刻的需求 —— 读写的外部一致性和基于时间戳的全局读一致性。为了保障这一点,Google引入了TrueTime API。TureTime API可以同步全球的时间,拥有一个TT.now()的方法,将获得一个绝对时间,同时还能得到时间误差。为了保证万无一失,TrueTime API具有GPS和原子钟双保险。也只有这样的机制才能让全球范围内的并发处理得到保障。

  大数据超越MapReduce

  Google并没有止步于MapReduce,他们在MapReduce不适用的地方开发新方法;当然,对于大数据领域来说这是个福音。MapReduce不是万能的;当然,你可以更深入一步,比如说将磁盘数据移入内存,然而同样还存在一些任务的内部结构并不是MapReduce可以扩展的。

  在Google思路以及论文的启发下,同样涌现出一些开源项目,比如:Apache Drill、Apache Giraph、斯坦福GPS等等。

  Google近年来每篇论文都有着深远的影响,同时大数据领域内有很多人必然在翘首以盼Google的下一篇论文。

时间: 2024-10-25 13:01:53

那些年Google公开的大数据领域论文的相关文章

那些年Google公开的大数据方面论文

Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始人兼首席数据科学家.在其个人博客上总结了Google近几年大数据领域的论文,并发表了自己的见解. 以下为译文: 主流的大数据基本都是MapReduce的衍生,然而把目光聚焦到实时上就会发现:MapReuce的局限性已经渐渐浮现.下面将讨论一下自大数据开始,Google公布的大数据相关技术,以及这些技术的现状. MapReuce.Google File System以及Bigtable:大数据算法的起源 按时间算第一

创业板企业在大数据领域的技术与专利现状分析

大数据时代带来了机遇和挑战,首先获益的便是IT行业.大数据已成为信息产业新的增长点,其发展已从以谷歌(Google).亚马逊(Amazon).雅虎(Yahoo)为代表的互联网大公司,蔓延到越来越多的创业型中小公司,这些公司在其不同的领域进行着各自大数据的发展,创造出了更多的商业模式和经济增长点. 资本市场逐利新概念股总是具有超强的敏锐性,大数据主题投资已在业内引起高度关注,国内多家证券机构也力荐"大数据概念股",其已成为一条全新的投资主线.本文对在创业板上市的计算机企业中涉及大数据的相

大数据领域33个预测,开启未知的2016

数据平民崛起 甲骨文公司预测一种新型用户:数据平民(Data Civilian)会崛起.该公司称:"虽然复杂的数据统计可能仍局限于数据科学家,但数据驱动的决策不会是这样.在未来一年,更简单的大数据发现工具让业务分析员可以寻找企业Hadoop集群中的数据集,将它们重新做成新的混搭组合,甚至运用探索性机器学习方法来分析它们. "大数据"会消亡 Nucleus Research公司公开发表了不同意见,预测我们所知道的大数据会消亡.该公司称:"在过去两年,每家公司及其人员似

主要厂商在大数据领域的布局状况

本文讲的是主要厂商在大数据领域的布局状况,大数据所带来的商业机会被越来越多具有技术前瞻性的厂商所重视.商业利润的分布也有了很大变化,据市调机构测算:今年预计总价值50亿美元的大数据市场目前有44%的份额来自服务类产品,31%源于硬件销售,而软件支持则占去了另外25%.这导致传统的IT企业凭借多年的技术积累和客户资源在向大数据领域转型,这个市场也为具有独特解决方案或服务的新兴公司带来了超越前者的机会. 像IBM.惠普.戴尔这样的传统硬件厂商,依靠在软.硬件这样的优势,逐渐向客户提供端到端的解决方案

2013将是大数据领域的投资布局之年

"一支身价四千万的棒球队如何能和一个一亿四千万的球队相抗衡,而且还能赢得一个亿?"在影片<点球成金>中,布拉德·皮特所饰演的美国奥克兰运动家棒球队总经理正是用电脑程序分析比赛数据,使得一支仅仅属于"三流"之列的棒球队取得了一场又一场的胜利,甚至有能力与大名鼎鼎的纽约扬基队竞争市场. 这部2012年曾红极一时的影片,获得了包括最佳影片在内的六项奥斯卡提名,而对互联网业界而言,它用了一种相当极端的"屌丝逆袭上位"的戏码预示着一个新时代的来

《爆发》作者:大数据领域将有新赢家

本文讲的是<爆发>作者:大数据领域将有新赢家,全球复杂网络研究专家日前到访中国,为其新作<爆发>作宣传.他在接受国内媒体采访时表示,未来可能有新公司取代谷歌.Facebook等公司,成为大数据领域的赢家. <爆发>一书是一本讨论大数据问题的商业书籍.作为复杂网络研究的权威,巴拉巴西在大数据兴起的背景下,得出一个结论性的判断,认为人类行为93%是可以预测的. 巴拉巴西的研究是在人类生活数字化的大数据时代基础上进行的,移动电话.网络以及电子邮件使人类行为变得更加容易量化,将

2017年大数据领域,这7大技术将退役!

文章讲的是2017年大数据领域,这7大技术将退役,我们已经在大数据领域进行了很长时间的探险了,虽然大数据已经不再让人眼前一亮和感到新鲜,但技术的不断更新足以让你时刻关注这个领域.同时,这也是很多企业技术更新最快的领域,但还是有一些技术会长期占据靠前的位置,直到有更好的替代品出现为止. 许多技术在未来面临着很大变化,或者重大升级.以下的这些技术,你或许可以考虑替换掉了: 1.MapReduce. MapReduce速度很慢,它很少成为解决问题的最佳方式.还有其他算法可供选择 - 最常见的是DAG,

2016大数据领域最有“钱”途的十大职业

缺人,这是全国乃至全球大数据圈都挺蛋疼的一件事儿,一边是"大数据热"疯狂蔓延,一边是 "供血"严重不足.企业家们着急得很,服务器齐齐杵那儿,光耗电不输出也很闹心.Gartner公司早前预测,2015年仅凭大数据就能为全球增加440万个就业岗位,但只有三分之一的岗位可以招到人,意味着近300万的岗位"虚位以待". 而2015年,中国的大数据人才缺口已经超过100万人.在技术.资本和市场的强推下,大数据今年发展的势头更加迅猛了,但大数据人才只有46万

10个大数据领域的杰出公司

本文筛选了近几年在大数据领域具有独特建树的10家企业,涵盖云计算.数据可视化.数据分析应用.商业智能等不同范畴.在大数据领域虽然国外的优秀企业占众多数,但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献. 本文筛选了近几年在大数据领域具有独特建树的10家企业,涵盖云计算.数据可视化.数据分析应用.商业智能等不同范畴.在大数据领域虽然国外的优秀企业占众多数,但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献.所以,这10家企业中也列举了一些在某领域具有突出贡献的国内公司,给大家借鉴.(