对比Hadoop 分析Spark受多方追捧的原因

  作为通用的并行处理框架,">Spark具有类似Hadoop的一些优点,而且Spark采用了更好的内存管理,在迭代计算上具有比Hadoop更高的效率,Spark还提供了更为广泛的数据集操作类型,大大方便了用户的开发,checkpoint的应用使Spark具有很强容错能力,众多优越的性能和比Hadoop更广泛的适用面让Spark的进一步发展值得期待。

  Apache Spark现在名声大噪。为支持Spark项目成立的 Databricks公司 从Andereessen Horowittz那里募集了1400万美元,Cloudera也已决定全力支持Spark,还有众多其它公司也积极地加入这件大事。所以我觉得这正是我应该认真了解一下这场躁动的时候。

  我研究了一段时间的Scala API(用Scala写的Spark),老实说一开始我很失望,因为Spark看起来真的太不起眼了。基本的抽象是Resilient Distributed Datasets(RDDs)和基本分布式不可变集,可以基于本地文件或通过HDFS存储在Hadoop上的文件定义,提供常用的Scala-style集合操作(如映射,foreach等)。

  我的第一反应是"没搞错吧,这真是基本分布式集合吗?"。相比之下Hadoop就显得丰富多了:分布式文件系统,众所周知的Map Reduce,支持所有类型的数据格式、 数据源、单元测试、聚类变量等。

  其他人很快就指出还有更多,事实上Spark也提供更复杂的操作(如join、依据操作分组或规约),这样你就可以为相当复杂的数据流建模(虽然没有迭代)。

  随着时间的推移我恍然大悟,原来Spark所谓的简单其实说的大多是关于Hadoop中的Java API而不是Spark本身。即使是简单的例子在Hadoop中通常也会有大量的样板代码。但从概念上讲,Hadoop非常简单,它只提供了两种基本操作:并行的映射(Map)和规约(Reduce)操作。如果用相同的方式,对表示相似分布式集合,事实上将有更小的接口(有些项目像 Scalding就是处理类似的事情,并且代码看起来很类似Spark)。

  Spark实际上提供了一组重要的操作,在这一点让我信服以后,我通过这个 论文进行了更深入的研究,它描述了通用的架构。RDDs 是Spark的基本构造模块,实际上真的很像分布式不可变集。这些定义的操作(如map或foreach),容易地进行并行处理;还有join运算,需要两个RDDs和收集基于一个共同键的条目;以及依据操作规约,通过用户指定基于键的函数来聚合条目。在单词计数示例中,计数一次就将文本映射到所有的单词,然后用键对他们进行规约,以此来实现字数统计。RDDs可以从磁盘中读取,然后为提高速度而保留在内存中,他们也可以被缓存,那样你就不需要每次都重读他们。仅那样就比Hadoop快了很多,这大部分是基于磁盘的速度。

  容错机制也是Spark的亮点之一。取代给中间结果进行持久化或建立检查点,Spark会记住产生某些数据集的操作序列。因此,当一个节点出现故障时,Spark会根据存储信息重新构造数据集。他们认为这样也不错,因为其他节点将会帮助重建。

  所以本质上,Spark相比纯粹的Hadoop,有更小的接口(可能在将来也会变得臃肿),但有许多基于之上的项目(例如像Twitter的 Scalding)达到了类似水平的表现。其他的主要区别是Spark默认情况下是在内存中,这自然带来性能上很大的改善,甚至允许运行的迭代算法。虽然Spark已也没有内置对迭代的支持,不过,就像他们宣称的那样:只要你想要,它就可以快到让你可以进行迭代。

  Spark流——微批处理的回归

  Spark还配有一个流数据处理模型,这当然让我很感兴趣。还有一篇对设计总结得很漂亮的 论文。与Twitter的 Storm框架相比,Spark采用了一种有趣而且独特的办法。Storm基本上是像是放入独立事务的管道,在其中事务会得到分布式的处理。相反,Spark采用一个模型收集事务,然后在短时间内(我们假设是5秒)以批处理的方式处理事件。所收集的数据成为他们自己的RDD,然后使用Spark应用程序中常用的一组进行处理。

  作者声称这种模式是在缓慢节点和故障情况下会更加稳健,而且5秒的时间间隔通常对于大多数应用已经足够快了。对于这一点,我不太确定,因为分布式计算总是很复杂,我不相信你能随意说有些东西是就比其他人的好。这种方法也很好地统一了流式处理与非流式处理部分,这一点是千真万确的。

  结束语

  Spark在我看来还是很有前途的,加上Spark被给予的支持和获得的关注,我坚信它将成熟起来并将在这个领域扮演更加重要的角色。当然,它不可能适用于所有场景,正如作者承认的那样,基于RDD稳定性只更改很少条目的操作就不适合。原则上,你必须对整个数据集备份,即使你只是想要更改一个条目。这可以很好地并行处理,但成本很高。copy-on-write在这里可能更有效,但是还未被实现。

  最上层是在TU Berlin的研究项目,有类似的目标,然而却通过更为复杂的操作(如迭代)来发展,不仅是为了容错能力存储一系列操作,而且要将它们用于全局调度优化和平行化。

时间: 2024-07-30 06:02:30

对比Hadoop 分析Spark受多方追捧的原因的相关文章

对比Hadoop,Spark受多方追捧的原因

当下,http://www.aliyun.com/zixun/aggregation/13383.html">Spark已得到了多方追捧,基于Map Reduce的分布式计算方法使Spark类似于Hadoop,却又比Hadoop的通用性更好,迭代运算效率更高,容错能力更强,未来的Spark将会是非常成功的并行计算框架. [编者按]作者Mikio Braun是柏林工业大学机器学习专业的博士后,他通过描述了自己对Spark逐步认识的过程,为我们剖析了Spark的原理和应用.作为通用的并行处理框

对比Hadoop Spark受多方追捧的原因

文章讲的是对比Hadoop Spark受多方追捧的原因,作者Mikio Braun是柏林工业大学机器学习专业的博士后,他通过描述了自己对Spark逐步认识的过程,为我们剖析了Spark的原理和应用.作为通用的并行处理框架,Spark具有类似Hadoop的一些优点,而且Spark采用了更好的内存管理,在迭代计算上具有比Hadoop更高的效率,Spark还提供了更为广泛的数据集操作类型,大大方便了用户的开发,checkpoint的应用使Spark具有很强容错能力,众多优越的性能和比Hadoop更广泛

大数据战略为何受发达国家追捧?背后原因揭秘

<企业网D1Net>3月21日讯 随着大数据时代的来临,大数据已经上升为世界各国的国家战略,尤其受到发达国家的追捧.大数据正在成为国家竞争的前沿,以及产业竞争力和商业模式创新的源泉. 联合国"数据脉动"计划.美国"大数据"战略.英国"数据权"运动.日本"面向2020年的ICT综合战略".韩国大数据中心战略等先后开启了大数据战略的大幕,有力推动了大数据产业化.市场化进程.大数据战略不仅可以提升社会生产力.创造新的社会

从互联网角度出发,慧算账受客户追捧

本文讲的是从互联网角度出发,慧算账受客户追捧,4月15日,由36氪与IDG联合主办的2016中国企业服务峰会在京圆满落幕,慧算账作为面向中小微企业提供记账.报税.金融一体化的服务平台受邀参加此次峰会,从互联网的角度为企业财税服务提供了更多新思路. 近年来,企业服务领域受追捧热度居高不下,尤其是今年又被称为消费互联网转型产业互联网的"企业服务元年",从长远来看,从各个维度剖析产业和延伸产业链,或将加速企业服务领域的沉淀,而在细分领域和服务层次上的比拼或许将成为整个行业发展的趋势. 慧算账

中国电信砸金蛋活动受用户追捧

中国电信"交费砸金蛋,大奖送不停"的网厅回馈活动,自8月5日开始以来受到广大电信用户的追捧.截止8月26日,参与用户已经超过40万.目前,参与人数仍然在以每日增加2.4万以上的速度递增,老用户推荐好友的数量也接近万人,活动反响热烈程度非常火爆. 8月20日第一期抽奖即出现55名大奖获得者,奖品包括33台3G手机和22台笔记本,另有60余万元的话费惠及众多电信用户.中奖用户遍及全国三十个省市自治区,其中以江浙.两广等城市最为集中,仅广东一省,就出现4位一等奖得主. 据北京一位电信忠实用户

美国有史以来最受消费者追捧的网购日

新浪科技讯 北京时间11月28日早间消息,IBM周二发布数据称,"网购星期一"全美网购开支同比增长30.3%,成为美国有史以来最受消费者追捧的网购日. 沃尔玛网上商城Walmart.com发言人称,该公司"网购星期一"的销售额创历史最高记录.亚马逊表示,Kindle设备也在"网购星期一"创下历史最高销量,但该公司拒绝透露具体数据.不过,eBay在圣诞购物季前五天的销售额增速却超过了老对手亚马逊. 由于多数人都会在感恩节过后第一个周一回去工作,并利

7天登陆美国主板经济型酒店受资本追捧

在国内经济型酒店扩张放缓之际,国际资本的追逐却丝毫热情不减,7天连锁酒店11月下旬闪电登陆纽交所,募得1.11亿美元. 显然,第一家在美国纽交所上市的中国经济型酒店品牌7天得到了投资者的认可.7天备受投资者追捧背后,是资本看到的巨大 中国市场机会. 7天核心价值受投资者认可 从诞生起,7天连锁酒店就屡获PE资金青睐,自2005年成立至今,7天已经先后获得了美国华平.英联投资.德意志银行.美林集团四家国际金融巨头近两亿美元的注资. 从2005年创办7天酒店到把公司推向资本市场,7天的董事长何伯权.

苹果受对冲基金追捧的七大理由

导读:美国金融分析师詹森·施瓦兹(Jason Schwarz)上周四撰文称,从长期来看,苹果的基本面能够推动其股价不断上扬,但正因如此,才为以对冲基金为首的短线投资者创造巨大的盈利空间,他们可以借助苹果的其他一些特质来拉低苹果股价,然后借助股价回调获利. 以下为文章全文: 投资常识使得多数投资者认为,苹果的基本面将不断推动其股价上扬.今年10月和11月,Mac电脑的销量都实现了74%的 同比增长,iPhone也有望在本季度首次突破1000万部的销量,iPod Touch也不断受到更多游戏玩家的青

美国主机龙蛇混杂 HostEase超高性价比受站长追捧

中介交易 SEO诊断 淘宝客 云主机 技术大厅 国内相对还算宽松的互联网环境,繁荣了国内虚拟主机市场的同时,也吸引了众多的美国虚拟主机商,而在众多的美国虚拟主机商也可谓龙蛇混杂,选择到一款优秀的美国主机还真的是不容易,HostEase虚拟主机商就是在众多的美国主机中脱颖而出,无论在速度.安全性.稳定性方面都非常的吸引人,也受到了众多站长的追捧,为什么有那么多站长追捧HostEase主机呢? 首先:HostEase虚拟主机是美国的专业主机商,其虚拟主机的服务器位于全球最大的SoftLayer机房,