颠覆大数据分析之RDD的表达性

正如前面在比较Spark及DSM系统时所提到的，由于RDD只支持粗粒度的操作，因此它有一定的局限性。但是RDD的表达性对于大多数程序而言其实已经足够好了。AMPLabs团队他们仅花了数百行代码就开发出了整个Pregel，这是Spark上的一个小的库。可以通过RDD及相关的操作来表示的集群计算模型列举如下：

Map-Reduce：如果存在混合器的话，这个可以使用RDD上的flatMap和reduceByKey操作来表示。简单点的话可以表示成flatMap和groupByKey操作。运算符则对应于Spark中的转换操作。
DryadLINQ:DryadLINQ(Yu等2008)通过结合了声明性及命令式编程提供了MR所没有的操作。大多数操作符都能对应上Spark中的转换操作。Dryad中的apply结构就类似于RDD的map转换，而Fork结构则类似于flatMap转换。
整体同步并行（BSP）：Pregel (Malewicz等 2010)中的计算由一系列称为超步骤的迭代所组成。图中的每个顶点都关联上一个用户定义的计算函数;Pregel会确保在每一个超步骤中，用户定义的函数都会并行地在每一条边上执行。顶点可以通过边来发送消息并与其它的顶点交互数据。同样的，还会有一个全局的栅栏——当所有的计算函数都终止的时候它就会向前移动。熟悉BSP的读者可能会知道，Pregel是一个完美的BSP的典范——一组实体在并行地计算用户定义的函数，它们有全局的同步器并可以交换消息。由于同一个用户函数会作用于所有的顶点，这种情况可以这样实现，将所有顶点存储在一个RDD中并在上面运行flatMap操作来生成一个新的RDD。把它和跟顶点的RDD连接到一块，这样就可以实现消息传递了。
迭代式Map-Reduce：HaLoop项目也同样扩展了Hadoop来支持迭代式机器学习算法。HaLoop不仅为迭代式应用提供了编程抽象，同时它还用到了缓存的概念来在迭代间进行数据共享和固定点校验（迭代的终止）以便提升效率。Twister (Ekanayake等2010)是另一个类似HaLoop的尝试。这些在Spark中都可以很容易实现，因为它本身非常容易进行迭代式计算。AMPLabs团队实现HaLoop仅花了200行代码。
转载自并发编程网 - ifeve.com

时间： 2024-12-09 11:54:04

颠覆大数据分析之RDD的表达性的相关文章

颠覆大数据分析之结论

颠覆大数据分析之结论译者:吴京润购书随着Hadoop2.0到来--被称作YARN的Hadoop新版本--超越Map-Reduce的思想已经稳固下来.就像本章要解释的,Hadoop YARN将资源调度从MR范式分离出来.需要注意的是在Hadoop1.0,Hadoop第一代,调度功能是与Map-Reduce范式绑定在一起的--这意味着在HDFS上惟一的处理方式就是Map-Reduce或它的业务流程.这一点已在YARN得到解决,它使得HDFS数据可以使用非Map-Reduce范式处理.其含

颠覆大数据分析之Storm的设计模式

颠覆大数据分析之Storm的设计模式译者:吴京润购书我们将要学习如何实现基于Storm的一些通用设计模式.设计模式,我们也称之为软件工程意识,是在给定上下文环境中,针对觉设计问题的可重用的通常解决方案.(Gamma et al. 1995).它们是分布式远程过程调用(DRPCs),持续计算,以及机器学习. 分布式远程过程调用过程调用为单机运行的程序提供了一个传输控制与数据的灵巧机制.把这一概念扩展到分布式系统中,出现了远程过程调用(RPC)--过程调用的概念可以跨越网络边界.客户机

颠覆大数据分析之Mesos：集群调度及管理系统

颠覆大数据分析之Mesos:集群调度及管理系统译者:黄经业购书正如前面"Mesos:动机"一节中所述,Mesos的主要目标就是去帮助管理不同框架(或者应用栈)间的集群资源.比如说,有一个业务需要在同一个物理集群上同时运行Hadoop,Storm及Spark.这种情况下,现有的调度器是无法完成跨框架间的如此细粒度的资源共享的.Hadoop的YARN调度器是一个中央调度器,它可以允许多个框架运行在一个集群里.但是,要使用框架特定的算法或者调度策略的话就变得很难了,因为多个框架间

颠覆大数据分析之Spark VS分布式共享内存系统

颠覆大数据分析之Spark VS分布式共享内存系统译者:黄经业购书 Spark可以看作是一个分布式共享集合系统,和Stumm和Zhou (1990)以及Nitzber和Lo (1991)所提到的传统的分布式共享内存(DSM)系统则略有不同.DSM系统允许单独读写内存,而Spark只允许进行粗粒度的RDD转换.尽管这限制了能够使用Spark的应用种类,但它对于实现高效的容错性却很有帮助.DSM系统可能会需要检查点相互协作来完成容错,比如说使用Boukerche等人(2005)所提出的协议

颠覆大数据分析之Spark弹性分布式数据集

颠覆大数据分析之Spark弹性数据集译者:黄经业购书 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解.将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下.你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多.它仅需从HDFS到Spark中的分布式共享对象空间的一次读入--从HDFS文件中创建RDD.RDD可以重用,在机器学习的各个迭代中它都会驻留在内存里,这样能显著地提升性能.当检查结束条件发现迭代结束的时候,会将

颠覆大数据分析之Storm简介

颠覆大数据分析之Storm简介译者:吴京润购书之前我们已经极为简单的介绍了Storm.现在我们要对它做一个更详细的了解.Storm是一个复杂事件处理引擎(CEP),最初由Twitter实现.在实时计算与分析领域,Storm正在得到日益广泛的应用.Storm可以辅助基本的流式处理,例如聚合数据流,以及基于数据流的机器学习(译者注:原文是ML,根据上下文判断,此处应是指机器学习,下文相同不再缀述).通常情况,数据分析(译者注:原文为prestorage analytics,意义应是保存分

颠覆大数据分析之第二章结束语

颠覆大数据分析之第二章结束语译者:黄经业购书本章讨论了一些业务场景,以及它们在BDAS框架中的实现.同时还介绍了什么是BDAS框架,并重点介绍了Spark, Shark,以及Mesos.Spark在那些涉及到优化的场景中非常有用--比如说Ooyala希望基于约束条件来动态地选择最优的CDN,以便提升视频的用户体验.必须注意的是,正如第一章所说的,众所周知,约束及变量过多的优化问题是很难在Hadoop MR中解决的.随机法要更适合Hadoop.不过你应当时刻牢记一点,Hadoop很难解

颠覆大数据分析之Spark为Shark所提供的扩展

在Spark的RDD上执行SQL查询遵循的是传统并行数据库的三步流程: 查询解析逻辑计划的生成将逻辑计划映射为物理的执行计划 Shark使用Hive查询编译器来进行查询语句的解析.它会生成一棵抽象语法树,然后再将它转化成一个逻辑计划.Shark中逻辑计划的生成方式也类似于Hive中的.但两者的物理计划的生成方式则不尽相同.Hive中的物理计划是一系列的MR作业,而Shark中的则是分阶段RDD转换的一个有向无环图.由于Shark的高工作负荷的这个性质(通常在Hive中机器学习及用户定义函数(

颠覆大数据分析之实时分析的应用

在这一节,我们将看到构建两个应用的步骤:一个工业日志分类系统和一个互联网流量过滤应用. 工业日志分类随新旧生产工程系统的自动化以及电子工程的发展,大量的机器之间(M2M)的数据正在被生成出来.机器之间的数据可以来自多个不同的源头,包括无线传感器,电子消费设备,安全应用,还有智能家居设备.举个例子,2004年的地震和随后的海啸造就了由海洋传感器构成的海啸预警系统.自2011年的日本东北地区的地震以来,日本已经沿火车轨道安装了许多传感器,帮助探测不寻常的地震活动以便及时关闭火车运行.GE和其它大电

猜你喜欢

最好的Windows虚拟主机空间

随着近年来选择Windows主机的用户越来越多.主机91一直致力于为广大.NET开发人员提供专业的香港Windows虚拟主机空间. 领先的服务器配置主机91的Windows虚拟主机空间采用的是最稳定 ...

互联网产品设计:启发式评估

启发式评估(貌似等同于专家小组评审)这个方法听得比较多,而系统的实际操作经验很少,大部分因为时间关系都只是直接需求评审,逻辑上没大问题就ok了. 本周产品小组的一个产品使用了这个方法,效果还挺好~不过 ...

asp.net中的报销多级审批工作流 (状态机版本)

上篇asp.net中的报销多级审批工作流 ,提到参考了网上一个具体的项目,项目中用状态机工作流完成, 基于学习的原因,我采用顺序工作流,事件驱动方式实现了同样的功能.后来学习到了状态机,觉的状态机实 ...

Oracle中如何回收表空间

1.原始表结构信息 06:49:50 SQL> analyze table emp1 compute statistics; Table analyzed. 06:50:00 SQL> s ...

MYSQL使用inner join 进行查询/删除/修改示例

本文为大家介绍下使用inner join 进行查询/删除/修改,具体实现如下,学习mysql的朋也可以学习下,希望对大家有所帮助复制代码代码如下: --查询 SELECT tp.tp_id, ...

阿里云邮箱如何导入其他地方的联系人

1.点击"联系人"标签; 2.在联系人页面中,点击"更多操作",选取"导入联系人"; 3.选择您需要导入的联系人文件; 4.选择联系人想 ...

Excel2010怎样给文档加密

今天小编为大家介绍一下Excel2010中怎么给文档加密,保护个人信息安全. 第一步:打开需要加密文档,选择文件选项第二步:选择信息-保护工作簿-用密码进行加密第三步:在密码输入框重复输入想要 ...

如何解决WinXP安装软件时出现NSIS ERROR错误

一.NSIS ERROR什么意思系统错误提示英文为"installer integrity check has failed. common causes include incomp ...

entity framework 如何绑定两个context

问题描述项目有两个context一个sqlite一个mssql如何做迁移升级等.命令怎么写,没有查到相关信息,求教! 解决方案解决方案二:EF支持多种数据库,主要是配置文件处理好就行,主要是以下三 ...

【玩转数据系列二】机器学习应用没那么难，这次教你玩心脏病预测

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2 一.背景心脏病是人类健康的头号杀手.全世界1 ...

js-bootstrap-table的post数据问题

问题描述 bootstrap-table的post数据问题要怎么把post的数据从{""page"":1rows"":10}变为page= ...

c#编程实现word 文档如何导入SQL Server数据库表中

操作WORD配置说明引入:Word的对象库文件"MSWORD.OLB"(word 2000为MSWORD9.OLB) 1.运行Dcomcnfg.exe 2.组件服务――计算机―― ...

游戏行业两大核心问题：数据挖掘与安全

本期采访嘉宾--王敬 (未若),<游戏专场>出品人. 2016云栖大会深圳峰会,点击报名! 王敬:非常高兴能够有机会在众多大牌游戏厂商聚集的深圳来策划本期云栖大会游戏分论坛.游戏领域每年都 ...

c#-大神求再来。。。。。。。

问题描述大神求再来....... 定义枚举类型 Public enum SexType {男, 女, 未知}: Public enum ProTitle (助教,讲师,副教授.教授.未知) Publ ...

c++-教程上面说说return值是必要的,为什么我注释掉了,没有报错?

问题描述教程上面说说return值是必要的,为什么我注释掉了,没有报错? 第一个: #include int WINAPI WinMain(HINSTANCE hinstance,HINSTANCE ...

android自定义view-Android在自定义View控制Activity里控件

问题描述 Android在自定义View控制Activity里控件最近在学习Android,想做一个效果遇到了困难.我自定义了一个View,然后在View里设置触摸事件,点击一个出现一个按钮, 再点 ...

vsphere-vmware vSphere 5.5 Update 2

问题描述 vmware vSphere 5.5 Update 2 问一下vmware vSphere 5.5 Update 2的升级,有没有人做过?公司要升级想要咨询一下

【独家】卜晓军：大数据引领互联网+时代

演讲全文: 大家好!我知道大家来自各行各业,那么为了更好地主持今天的内容,我们把大数据在应用实践方面.解决我们实际问题的方面作为一个探讨,和大家一起分享,这是今天题目后面的主要内容. 这是一个&quo ...

windows下安装、卸载mysql服务的方法(mysql 5.6 zip解压版安装教程)_Mysql

MySQL是一个小巧玲珑但功能强大的数据库,目前十分流行.但是官网给出的安装包有两种格式,一个是msi格式,一个是zip格式的.很多人下了zip格式的解压发现没有setup.exe,面对一堆文件一头雾 ...

Oracle - ODPS数据类型转换

ODPS数据类型: 类型描述取值范围 Bigint 8字节有符号整型.请不要使用整型的最小值 (-9223372036854775808),这是系统保留值. -922337203685477580 ...

“严凤英”重回甘家大院吴琼：黄梅戏终会消亡

吴琼昨天,黄梅戏一代宗师"严凤英"回来了,回到她阔别数十年的南京,回到她眷念的南京.南京留下了太多太多严凤英的足迹.她曾经在这里认识了第一任丈夫,拥有了她人生中第一段爱情和婚姻. ...

城管被百度解释成打砸抢城管队长称太心酸(图)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅昨日,城管执法队员小李试着在&qu ...

《Android Design》 4.4 中文版，献给码农和设计师的情人节礼物

Android Design 非官方中文版更新到 4.4 KitKat,大量重写优化了原有译文,并全文翻译了近期引入的新内容.4.4 版中新增的自我标识.导航抽屉.全屏模式等章节,相信会对 Andro ...

网站优化者如何去赚钱的方法

网站优化者如何去赚钱的方法 1.通过大流量的网站赚取广告费分析:通过流量赚钱,这种方法相信是大部分seo教程er和个人站长正在使用的赚钱方法,通过优化某个热门关键词,把自己的网站做到日ip10000 ...

python正则表达式匹配

问题描述 python正则表达式匹配我想匹配文件中所有 (NN 单词) (NN 单词),示例程序如下: import re pattern2 = re.compile('(NN [a-z]+)') ...

SAP实现云优先战略，4项新云服务登陆中国

传统软件向云端迁移已经是一个不可逆的大势,SAP今天的行动对此做出了最好的注脚.作为传统软件ERP的龙头企业,SAP正坚定不移地走在向云转型的道路上.根据SAP不久前公布的2016年的财报,2016年 ...

android开发-这个搜索功能怎么实现呀？求大神帮忙指点，谢谢！下面是代码

问题描述这个搜索功能怎么实现呀?求大神帮忙指点,谢谢!下面是代码主程序的:public class MainActivity extends Activity { private ListView ...

jsp-数据库数据插入网页上，再从网页插入另一个数据库

问题描述数据库数据插入网页上,再从网页插入另一个数据库我把数据库数据以表格形式显示在网页上,想在每行后面再添加一个"添加"链接, 从网页插入另一个数据库,代码看图解决方案 j ...

微信红包【技术篇】——如何在服务有损的情况下保证用户体验

羊年春晚因着微信摇一摇的介入,变得十分的不一样.而从项目参与者本身出发,100亿次摇一摇.10亿个红包等惊人数据,都是让我们很兴奋的,当然之所以撑起这么大的数量,服务器的多项优化起到了非常关键的作用. ...

关于Loadrunner12的测试总结

今天做了个比较全面的测试,简单在这里说一下吧 1.LR12是11.52的完成版本,确实觉得整体舒服多了,用起来不是那么别扭了,有些菜单的优化还是不错的 2.对于win8.1和ie11支持确实很好,采用 ...

热搜