超越Hadoop的大数据分析之图形处理尺寸

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:许巧辉

另一个来自Google的重要工具,看起来超越了Hadoop MR——Pregel框架实现了图形计算(Malewicez et al.2010)。在Pregel中的计算是由一系列迭代组成的,被称为supersteps。图上的每个顶点都与一个用户定义的计算函数相关联;Pregel确保每个superstep在图的每条边上并发调用用户定义的计算函数。顶点可通过边发送消息,并且顶点间可交换值。这也是个全局同步——所有操作必须在用户定义的函数结束后才能继续。熟悉BSP的读者可以看出为什么Pregel是BSP优秀的例子——一组实体在用户定义的函数中使用全局锁并行计算,并且能够进行消息交换。

Apache Hama (Seo et al. 2010)相当于开源的Pregel,一种BSP的实现。Hama在HDFS和微软的Dryad引擎之上 实现了BSP。大概是因为他们不希望被认为他们与Hadoop的社区之间有所不同。但重要的是,BSP本质上是一种适合迭代计算的范例,而且Hama拥有CGD的并行实现,这是Hadoop不容易实现的。必须指出的是,Hama的BSP引擎是在MPI之上实现的,这是并行编程文学的鼻祖( www.mcs.anl.gov/research/projects/mpi/ )。Apache Giraph, Golden Orb, 还有Stanford GPS项目的灵感也来自Pregel。

GraphLab (Gonzalez et al. 2012)已经成为现代化图形处理的范例。GraphLab起源于华盛顿大学和卡内基梅隆大学(CMU)的学术项目。GraphLab提供跨集群节点处理图形的有用抽象。PowerGraph,GraphLab的后续版,使得它有效地处理自然图形或幂律图——这是有大量不良连接点和少量良好连接点的图。Twitter上关于页面排名和三角形计数问题的性能评估已验证GraphLab比其他方法更有效率。本书的重点主要是Giraph,GraphLab及其相关方面。

表1.1对各种范例的非功能特性进行了比较,如可扩展性、容错机制和已实现的算法。由此可推断出,尽管传统工具只工作在单个节点上,不可能做横向扩展,也有可能出现单点故障,近期重构方面的努力抢劫它们跨代迁移。值得注意的是,大多数图形处理范例并没有容错机制,然而Spark和Hadoop是其中提供容错机制的第三代工具。

文章转自 并发编程网-ifeve.com

时间: 2025-01-30 13:48:31

超越Hadoop的大数据分析之图形处理尺寸的相关文章

超越Hadoop的大数据分析之前言

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了.考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年.Yahoo!于2006年发起Hadoop项目.MR是基于十年前的数据中心的经济上的考虑.从那时以来,已经有太多的东西发生了变化:多核心处理器.大内

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:吴京润 译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译. 你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验.或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性.或者你是一个通讯/移动服务提供商--要么你在这样的公司工作--而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入

超越Hadoop的大数据分析之致谢

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:许巧辉 首先,我要衷心感谢Vineet Tyagi.AVP和Impetus的创新实验室主管.Vineet对我帮助很大,并促使我写这本书.在6.7月份,每个工作日他给我3个小时的时间写作本书,这是帮助我完成本书的关键.任何学术活动都要专门花费很多时间--这时候就得加倍努力,因为我必须在工作之余写作.Vineet令写作成为我工作的一部分. 我也想对Pankaj Mittal.CTO和SVP.Impetus表示感谢,

IDF2013:英特尔超越Hadoop的大数据

[IT168 专稿]2013年4月10日消息,2013年英特尔信息技术峰会(IDF 2013)在北京国家会议中心举行,本届IDF主题为"未来,用"芯"体验",宣示英特尔更加以用户体验为核心,立足英特尔架构继续扩大和深化产业合作,全面推动计算技术创新.芯片制造创新.应用体验创新.终端形态创新和云端智能创新,以强大的计算力开启一个全新的个性化体验新时代.来自中国和全球各地的数千名软硬件开发人员.技术管理人员及媒体.分析师将汇聚一堂,体验前沿的技术成果,探索未来的创新趋势

《Hadoop金融大数据分析》读书笔记

<Hadoop金融大数据分析> Hadoop for Finance Essentials 使用Hadoop,是因为数据量大数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据 3V定义:即"大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度.大量指的是数据的量很大,多样指的是数据的类型很多,高速指的是数据处理的速度很快 对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,对于处理TB级数据的大公司来说,PB

如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势.网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Linke

掌握方法 如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势.网站访问和习惯.客户审查数据等等:那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Linke

微软发布新的Hadoop Azure大数据分析服务

就像微软把Excel 表单处理引进到商务领域一样,微软希望其推出的 新的Windows Azure HDInsight服务能够利用大数据分析带来 同样的影响力. 微软数据平台事业部总经理Eron Kelly表示:"我 认为,我们一直做的很好的事情是解决困难的技术问题并且简化这些问题.因此,我们正在使Hadoop更简单并且把它提供给每一个人." Windows Azure HDInsight是作为Windows Azure平台服务提供的.这项服务提供一个Apache Hadoop数据处理

Hadoop的大数据分析技术与其未来发展趋势

2014是一个IT风云变幻莫测的一年,传统的行业都积极走向了互联网,从MWC大会闭幕我们可以看出未来互联网比拼的再也不是硬件而是"软"实力了.来自多个渠道的信息显示,阿里巴巴集团近期正与携程旅行网洽谈投资入股事宜.如果合作交易最终达成,将标识着在线旅游业也进入了百度.阿里巴巴.腾讯(BAT)三巨头阵营划分下的寡头竞争时代.BAT各自都在整合自己的产业链,未来大数据处理直接带动整个行业,目前整个IT行业也趋向于大数据和商业智能(BI),大数据带来的潜在商业价值将不可限量. 市场研究机构I