Storm、Spark和MapReduce 开源分布式计算系统框架比较

比较项 Storm Spark Streaming 分布式计算在许多领域都有广泛需求，目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm；这三个框架各有优势，现在都属于 Apache 基金会下的顶级项目，下文将对三个框架的特点与适用场景进行分析，以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早，知名度最大的分布式计算框架，最早由 Google Lab 开发，使用者遍布全球（Hadoop PoweredBy）；主要适用于大批量的集群任务，由于是批量执行，故时效性偏低，原生支持 Java 语言开发 MapReduce ，其它语言需要使用到 Hadoop Streaming 来开发。Spark Streaming 保留了 Hadoop MapReduce 的优点，而且在时效性上有了很大提高，中间结果可以保存在内存中，从而对需要迭代计算和有较高时效性要求的系统提供了很好的支持，多用于能容忍小延时的推荐与计算系统。Storm 一开始就是为实时处理设计，因此在实时分析/性能监测等需要高时效性的领域广泛采用，而且它理论上支持所有语言，只需要少量代码即可完成适配器。

下面的表格是对三者部分特性的比较，描述时间为 2015-5-3，三个项目均处于快速迭代中，文中描述特性会随时产生变化，如果与官方文档产生出入以官方文档为准。

本文作者：佚名

来源：51CTO

时间： 2024-10-07 20:22:58

Storm、Spark和MapReduce 开源分布式计算系统框架比较的相关文章

MapReduce分布式处理框架的优缺点

在Google数据中心会有大规模数据需要处理,比如被网络爬虫(WebCrawler)抓取的大量网页等.由于这些数据很多都是PB级别,导致处理工作不得不尽可能的并行化,而Google为了解决这个问题,引入了MapReduce这个分布式处理框架. 技术概览 MapReduce本身源自于函数式语言,主要通过"Map(映射)"和"Reduce(化简)"这两个步骤来并行处理大规模的数据集.首先,Map会先对由很多独立元素组成的逻辑列表中的每一个元素进行指定的操作,且原始列表不

流式大数据处理的三种框架：Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt

分布式服务框架Dubbo疯狂更新！阿里开源要搞大事情？

Dubbo启动维护后,阿里中间件(Aliware)组建了由专职人员和RPC技术专家组成的虚拟维护团队.通过这篇文章,Dubbo的虚拟维护团队将和大家分享一些Dubbo启动维护的历程.取得的成绩以及后续的规划,具体包括Dubbo社区的建设情况.当前的版本维护主线.近期roadmap及后续计划等. Dubbo是阿里巴巴于2012年开源的分布式服务治理框架,目前已是国内影响力最大.使用最广泛的开源服务框架之一,在Github上的fork.start数均已破万. 在过去几年,Dubbo开源社区虽然一直有

跨语言-能同时支撑多语言互为provider，consumer的分布式服务框架，开源的有吗？

问题描述能同时支撑多语言互为provider,consumer的分布式服务框架,开源的有吗? 能同时支撑多语言互为provider,consumer的分布式服务框架,开源的有吗? 开源的分布式服务框架(dubbo,HSF等)都不支持跨语言(或许有其他,但是我不知道). 如果没有开源的,我的思路是基于同一种协议(hession,thrift,protobuff,avro等)把各种语言支撑的框架集成到一起(例如 php python c++ 的)形成一个支持多语言互为provider,consum

分布式计算系统storm任务调度算法

分布式计算系统storm中worker.executor.task比较 http://www.111cn.net/sys/linux/96715.htm 3种Scheduler概述 EventScheduler:将系统中的可用资源均匀地分配给需要资源的topology,其实也不是绝对均匀,后续会详细说明 DefaultScheduler:和EvenetScheduler差不多,只不过会先将其它topology不需要的资源重新收集起来,再进行EventScheduler Iso

Apache Eagle：eBay开源分布式实时Hadoop数据安全引擎

日前,eBay公司隆重宣布正式向开源业界推出分布式实时安全监控方案:Apache Eagle,该项目已于2015年10月26日正式加入Apache基金会成为孵化器项目. http://goeagle.io Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时.可伸缩.易扩展.交互友好等特点,同时集成机器学习对历史模型训练建立用户画像以实现智能实时地保护Hadoop生态系统中大数据的安全. Eagle在eBay的使用场景目前,Eagle的数据行为监控系统已经部署到一个拥有250

专访QQ大数据团队，谈分布式计算系统开发

NoSQL是笔者最早接触大数据领域的相关知识,因此在大家都在畅谈Hadoop.Spark时,笔者仍然保留着NoSQL博文的阅读习惯.在偶尔阅读一篇Redis博文过程中,笔者发现了 jacksu的个人博客,并在其中发现了大量的分布式系统操作经验,从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组,这里我们一起走进. QQ大数据团队 CSDN:首先,请介绍一下您的团队? 聂晶:我们团队是社交网络事业群/社交网络运营部/数据中心/平台开发二组,前身是QQ成立之初后台3个基础团队之一的Q

分布式测试框架架构与思考(1)奠基

"工欲善其事必先利其器".无论是哪个行业,这都是一句至理名言,软件测试当然也不例外.这也正是分布式测试框架(下文简称DST)设计的初衷. DST是海量数据项目背景下,为了解决测试集管理.运行.查询和测试执行.控制以及监控.日志数据的收集整理的一个通用型测试与分析平台.这个平台既包含了传统测试框架的特点也包含了自身的开创性思想.作为DST从前端界面到后端服务的亲身经历和开发者,下面我将从技术选型.架构设计.功能点分析.使用场景以及周边支持工具这几个角度来对DST测试平台做一个总结,进一步

分布式测试框架架构与思考（1）技术选型

"工欲善其事必先利其器".无论是哪个行业,这都是一句至理名言,软件测试当然也不例外.这也正是分布式测试框架(下文简称DST)设计的初衷. DST是海量数据项目背景下,为了解决测试集管理.运行.查询和测试执行.控制以及监控.日志数据的收集整理的一个通用型测试与分析平台.这个平台既包含了传统测试框架的特点也包含了自身的开创性思想.作为DST从前端界面到后端服务的亲身经历和开发者,下面我将从技术选型.架构设计.功能点分析.使用场景以及周边支持工具这几个角度来对DST测试平台做一个总结,进一步

猜你喜欢

ios后台运行-Voip后台实现过程中的问题，底层用sip的库，求支援求帮助求分析解决

问题描述 Voip后台实现过程中的问题,底层用sip的库,求支援求帮助求分析解决公司目前在做一个voip网络电话的项目,底层的库是用的sip.我是负责写上层app的,底层的库都是封装在.a的静态库里 ...

初学&#106avascript之cookie篇(3)

cookie|初学 <html> <head> <title>Homepage</title> </head> <body ...

Javascript控制XSlt转换XML

javascript|xml|控制|转换 html> <body> <script language="javascript"> // Load XM ...

刷新本页与父页的两条代码

刷新 window.location.reload(); //本页 window.opener.location.reload(); //父页

网站链接买卖害人又害己悔网站今日终被降权

悔不该当初.悔不该不遵循百度绿萝算法.悔不该不听朋友的劝告,今日一个运营长达五年多时间的网站终于被百度拿下了,这个站点也是我手中的王牌站点,从07年开始进入互联网到现在,我靠这个站点度过了一个又一个春 ...

Flash初学者教程：形状补间动画

初学|教程|形状动画效果: 点击这里下载源文件形状补间动画很简单,像刚才一样,随便画一个东西(Flash画什么图形都是按住『SHIFT』即可画正圆(方). 不要把它转换为元件,在时间轴20帧(按你 ...

SEOer接单时应让客户正确认识SEO

今天在28推.seowhy论坛.及推18论坛时,无意又看到了好多客户声援被SEOer欺骗的帖子,对此小维只能表示很无奈.SEOer为了生活也需要钱,而客户的钱也不是大风刮来的,他也希望能花尽量少的钱赚 ...

.NET WINFORM中使用本地SMTP SERVICE(CDO.Message错误处理)

smtp|错误|错误处理这两天做了一个小PROJECT,大致是一个SERVER监控系统,如果发现某部SERVER有异常,发送EMAIL到相关手机,以便在非工作时间和节假日也能及时知道系统故障. 其中 ...

CentOS 6.3_ RSync实现文件备份同步配置与使用

系统环境:CentOS 6.3 rsync服务器 CentOS 6.3 rsync客户端 IP地址分别为:10.1.4.44服务器.10.1.4.41客户端所需软件包:rsync-3.0.9.tar ...

WPS移动版：拥抱数字革命平板用户PDF阅读好拍档

近年来,数字出版飞速发展,为电子阅读市场提供了充足的资源.特别是PDF格式电子书,由于可以忠实地再现原稿的每一个字符.颜色及图象,这使得商务领域中的产品说明.公司文告.计划方案,纷纷采用PDF格式文件 ...

光驱消失了怎么办

我的笔记本电脑光驱盘符不知什么时候突然消失了,检查了系统的CMOS却没问题,请董师傅帮忙! 考虑到你的笔记本是新买的,加之CMOS中光驱是存在的,所以光驱本身的硬件故障可以排除,可能是因为你安装了NE ...

win7自带功能让U盘充当系统缓存

在电脑系统中,硬件运行速度的快慢基本由缓存决定,缓存的容量越大,相应的硬件运行速度也就越快.对于很多老电脑的用户,又不想花钱提速的朋友不妨试试让你的U盘成为系统缓存吧.只要你手中有闲置的U盘,我们 ...

retinex-单尺度RETINEX的算法中不同代码的高斯函数的形式问什么不同，MATLAB代码

问题描述单尺度RETINEX的算法中不同代码的高斯函数的形式问什么不同,MATLAB代码有没有相关的代码.为什么高斯核的形式不一样 [x y]=meshgrid((-(size(Ir,2)-1)/ ...

ORA-06502:PL/SQL :numberic or value error: character string buffer too small

今天遇到一个错误提示:ORA-06502:PL/SQL :numberic or value error: character string buffer too small,一般对应的中文信息为:O ...

为自己搭建一个鹊桥 -- Native Page与Web View之间的JSBridge实现方式

原文:为自己搭建一个鹊桥 -- Native Page与Web View之间的JSBridge实现方式说起JSBridge,大家最熟悉的应该就是微信的WeixinJSBridge,通过它各个公众页面 ...

魏克军：明年一季度启动5G第三阶段测试工作

在今日举行的"2017未来信息通信技术国际研讨会"上,IMT-2020(5G)推进组无线技术工作组组长魏克军表示,5G第二阶段测试工作今年年底收官:从明年第一季度开始,工作组会启动 ...

azure-Windows Azure 服务如何保证用户的数据和服务安全性？

问题描述 Windows Azure 服务如何保证用户的数据和服务安全性? Windows Azure 服务如何保证用户的数据和服务安全性? 解决方案您好,关于这个问题,仅以您参考官网(http:/ ...

BASH SHELL快速入门

BASH BASH的基本语法最简单的例子--HelloWorld! 关于输入.输出和错误输出 BASH中对变量的规定(与C语言的异同) BASH中的基本流程控制语法函数的使用 2.1 最简单的例子 ...

spring-java web 怎么读取网络上的JSON数据

问题描述 java web 怎么读取网络上的JSON数据请问怎么java web应用怎么能在服务段获取一个特定网络上的JSON数据? 解决方案参考:http://yq135314.iteye.co ...

android apk执行shell脚本

修改AndroidManifest.xml文件,在其manifest节点中添加android:sharedUserId="android.uid.system" ,表示apk和系统 ...

微软暂停WP7.8更新推送疑因Live Tiles功能故障

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 今年1月,微软开始跟全球多家无线供应商合作,为Win ...

Do All in Cmd Shell一切在命令行下完成第1/6页_DOS/BAT

文件传输对于溢出漏洞获得的cmd shell,最大的问题就是如何上传文件.由于蠕虫病毒流行,连接ipc$所需要的139或445端口被路由封锁.再加上WinXP系统加强了对ipc$的保护,通过ipc$ ...

mv...-关于ectouch中session传值问题

问题描述关于ectouch中session传值问题最近在做ectouch二次开发,加一个微信支付的功能,微信支付插件已经有了,但是支付前需要获取微信openid,我也自己授权获取了,但是在用ses ...

九城开下法律“棋” 四诉美国暴雪

中介交易 SEO诊断淘宝客云主机技术大厅九城"截和",成也"魔兽"败亦"魔兽" 网游业在当前的全球经济危机中可谓一支独秀,网游也由此 ...

nginx-反向代理虚拟机2003server中tomcat的8090服务端口

问题描述反向代理虚拟机2003server中tomcat的8090服务端口在物理机上安装Nginx服务器,并配置物理机9090端口,反向代理虚拟机2003server中tomcat的8090服务端 ...

用C#开发通信服务器端的稳定性问题

问题描述上面的意思是用C#做一套公司内部用的通信软件,主要发送信息人数大概30,接收信息的人有300,除了人用之外,公司的各套软件的一些重要信息也会通过这套东西发布,我想把服务器端设置成双重结构,第 ...

header导出Excel应用示例_php技巧

复制代码代码如下: <?php class reportFormAction extends CommonAction{ public function index(){ if($_POST) ...

jQuery简单实现tab选项卡切换效果_jquery

抽空把公司项目上用的tab效果封装了一下,实在是需要用的地方太多了~~~ 效果图: 代码: <!DOCTYPE html> <html> <head> <me ...

JS 数字转换研究总结_javascript技巧

JS 转换数据为数字的方法有三类五种,包括: •强制转换,JS 的基本数据类型都这以这样转换成对应的类型(Number(v)) •原生函数,这两个函数有不一样的结果(parseInt(v,radix) ...

如何提高网站收入

一个网站如果想靠广告获得更多的盈利,不仅是要提高网站的质量,增加网站的流量,而且也要选择一个信誉好.有发展前途的广告联盟,这样才能让网站在广告盈利中有更好的发展前景. 现在个人建站成风,很多人都想通过 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.023 s.