Spark和Hadoop,孰优孰劣

Spark已经取代Hadoop成为最活跃的开源大数据项目,但是,在选择大数据框架时,企业不能因此就厚此薄彼

近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的异同

 

Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务的工具,但确切地说,它们所执行的任务并不相同,彼此也并不排斥

虽然在特定的情况下,Spark据称要比Hadoop快100倍,但它本身没有一个分布式存储系统

而分布式存储是如今许多大数据项目的基础,它可以将 PB 级的数据集存储在几乎无限数量的普通计算机的硬盘上,并提供了良好的可扩展性,只需要随着数据集的增大增加硬盘

因此,Spark需要一个第三方的分布式存储,也正是因为这个原因,许多大数据项目都将Spark安装在Hadoop之上,这样,Spark的高级分析应用程序就可以使用存储在HDFS中的数据了

与Hadoop相比,Spark真正的优势在于速度,Spark的大部分操作都是在内存中,而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上,这是为了确保在出现问题时能够完全恢复,但Spark的弹性分布式数据存储也能实现这一点

另外,在高级数据处理(如实时流处理、机器学习)方面,Spark的功能要胜过Hadoop

在Bernard看来,这一点连同其速度优势是Spark越来越受欢迎的真正原因

实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序,并立即获得反馈

在各种各样的大数据应用程序中,这种处理的用途越来越多,比如,零售商使用的推荐引擎、制造业中的工业机械性能监控

Spark平台的速度和流数据处理能力也非常适合机器学习算法,这类算法可以自我学习和改进,直到找到问题的理想解决方案

这种技术是最先进制造系统(如预测零件何时损坏)和无人驾驶汽车的核心

Spark有自己的机器学习库MLib,而Hadoop系统则需要借助第三方机器学习库,如Apache Mahout

实际上,虽然Spark和Hadoop存在一些功能上的重叠,但它们都不是商业产品,并不存在真正的竞争关系,而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务

例如,Cloudera 就既提供 Spark 服务也提供 Hadoop服务,并会根据客户的需要提供最合适的建议

Bernard认为,虽然Spark发展迅速,但它尚处于起步阶段,安全和技术支持基础设施方还不发达,在他看来,Spark在开源社区活跃度的上升,表明企业用户正在寻找已存储数据的创新用法

本文转自d1net(转载)

时间: 2024-10-29 08:08:14

Spark和Hadoop,孰优孰劣的相关文章

二代 Nexus 7 与 iPad mini孰优孰劣

http://www.aliyun.com/zixun/aggregation/624.html">谷歌昨日发布了新一代 Nexus 7,让我们看看它与同为小平板的 iPad mini 相比孰优孰劣. 大小 新版 Nexus 7 比 iPad mini 窄 16%,比 iPad mini 厚 21%. 重量 二代 Nexus 7 比 iPad mini 轻 6%. 制造工艺 塑料 VS 铝合金 显示屏 二代 Nexus 7 比 iPad mini 每英寸像素点多了 162 个,显示精度远高

解析:云存储和实体存储 孰优孰略?

随着国内几大传统网盘公司,新浪微云.115云盘.金山云盘等或破产倒闭或有偿使用,曾经蓬勃发展的免费云存储行业,遇到了行业性的破产危机. 虽然市场上依旧活跃着诸如百度云盘.360免费云盘等产品,但是相比较于先前的免费极速的绝佳体验,百度云等云盘的阉割和限速也使得存活下来的云盘产品的前景,光辉不再. 尤其是,国内用户普遍没有付费使用网络服务的消费意识,这让有着巨大运营成本,却没有多种有效的盈利模式的网盘企业,承担着相当的运营风险和压力,一着不慎,就有可能步前辈之后尘. 云存储和实体存储 孰优孰略?

一决高下,分布式流处理框架孰优孰劣

本文PPT来自技术专家毛玮于10月16日在2016年杭州云栖大会上发表的<分布式流处理框架--功能对比和性能评估>. 目前,分布式流处理框架数量不少,各有特色,究竟哪个性能更好.哪个效率更高.哪个更适合我呢?一般来说,当选择不同的流处理系统时,我们往往需要关注以下六大方面:1.运行时和编程模型2.函数式原语3.状态管理 4.消息传输保障 5.容错 6.性能. 其中,运行时模型主要包括原生的流处理和微批处理.流处理意味着所有输入的记录一旦到达即会一个接着一个进行处理,微批处理则把输入的数据按照某

论社区搜索广告与普通搜索广告孰优孰劣

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 当开始这个话题讨论的时候,我在思考了很久,要以怎样的方式开始这篇文章.最终我决定以一种对话的形式来开始这篇文章.这里大体介绍下社区搜索(例如Facebook,sns等网站中嵌入的搜索形式);普通搜索就是我们常见的谷歌,百度等这些搜索引擎. 普通搜索广告说自己的优势就是当你去搜索某个关键词,搜索引擎就会返回一个跟关键词相关的搜索广告.提供的广告

Struts2 和 Spring MVC 孰优孰劣

最近我在将APDPlat升级到Java8,由于之前有很多的同学希望我把APDPlat的struts2替换为spring mvc,所以我就决定试试看. 本次我把APDPlat的struts2改造为spring mvc的目标是:99.99%不改动JS.HTML.JSP等前端代码,只改JAVA代码!所以大家要先理解我的目标,然后再来看我的做法. 本文我们看两个转换前后的例子: 1.下拉列表服务,此类比较简单,只涉及一个方法store: 使用struts2: @Scope("prototype"

基于移动设备的机器学习,本地与云端孰优孰劣?

雷锋网按:如果您觉得,是时候给自己的手机应用添加一些热门的机器学习或深度学习算法.....这是个好想法!但您会怎么选择?致力于提供算法服务及小白科普的咨询师 Matthijs Hollemans 近期在博客上分享了他的一些心得体会,雷锋网独家编译,未经许可不得转载. 绝大多数机器学习实现方法的步骤不外乎如下三点: 采集数据 利用采集的数据来训练一个模型 使用该模型进行预测 假设想做一个"名人匹配 (celebrity match) "的应用程序,告诉用户他们和哪位名人最相似.首先收集众

孰优孰劣 — 开源 vs. 闭源

开源操作系统和闭源操作系统之间有诸多不同.这里我们仅寥书几笔. 开源是什么?自由! 这是用户需要知道的最重要的一点.无论我是否打算修改代码,其他人出于善意的修改都不应受到限制.且如果用户喜欢,他们可以分享这个软件.使用开源软件,这些都是可能的. 闭源操作系统的许可条款很是吓人.但真的所有人都会看吗?不,许多用户只是点了一下'Accept' 而已. 价格 几乎所有的开源操纵系统是免费的.仅有自愿性质的捐款.且只需有个一个 CD/DVD 或 USB 就能将系统安装到所有你想要安装的电脑上. 闭源操作

四大云计算平台对比 孰优孰劣见分晓?

软件产品开发公司Altoros Systems的IT基础设施设计师Vadim Truksha在美国<网络世界>上发表一篇文章,详细对比了CloudStack.Eucalyptus.vCloud Director和OpenStack等四个云平台.文章全文如下: 考虑到云计算有极大的潜力提高效率,显著节省成本,实现可升级的基础设施和高性能以及安全的数据存储,云计算仍然是目前IT领域最热门的话题之一. 然而,选择合适的云平台是很困难的.这些云平台都有支持意见和反对意见.因此,Truksha说,当一个

孰优孰劣,新渴望8系对战魅族MX3(图)

随着新渴望8系易迅网首轮抢购的结束,这款手机的人气也正以"野蛮增长"的趋势继续攀升.凭借着首销10分钟就售出50000台的"话题优势",新渴望8系成功上位今年最受关注的新机型之一.作为今年颇受关注的 一款中端新机,新渴望8系难免会被拿来与以往的人气单品作比对,而说到中端手机市场的"旧宠",大家 首先想到的应该就是去年9月份上市的http://www.aliyun.com/zixun/aggregation/2229.html">魅