Apache Spark是大数据领域的下一个大家伙吗?

  作者观察到">Apache Spark 最近发出一些不同寻常的事件,Databricks将提供$14M美金支持Spark,Cloudera决定支持Spark,Spark被认为是大数据领域的大事情。

  美好的第一印象

  作者认为自己已经与Scala的API(Spark使用Scala编写)打交道了一段时间,说实话,起初是相当深刻的印象,因为Spark是看上去这么小而好。基本的抽象是有弹性分布式数据集(RDD),以及基本上分布的不可改变集合,可以基于本地文件定义后通过HDFS存储在Hadoop中,并提供诸如Scala风格的map foreach等函数操作。

  给人的第一反应是“等等,这是基本的分布式集合吗?”Hadoop可比这多得多,分布式文件系统,特别是Map Reduce,支持各种数据格式,数据来源,单元测试,集群变种的支持等等。

  当然Spark也支持更复杂的操作如joins, group-by, 或reduce-by 操作,可以建模复杂的数据流。

  随着时间的推移,开始明白了Spark的简约是针对Hadoop的Java API。在Hadoop中即使最简单你的案例也有不少代码。但是从概念上说,Hadoop是很简单的,因为它仅提供了两个基本的操作,并行的mao和一个reduce操作。如果在对一些类似的分布式集合以同样的方式表达,其实只有一个更小的接口(如Scalding的一些项目实际构建这样的事情,代码看起来与SPark非常相似)。

  为了说服自己,作者继续研究,发现Spark实际提供了一个不平凡的操作集 ,RDD是Spark的基本构建块,类似分布的不可变集合。象map湖泊foreach等操作很容易并行操作,而且实现两个RDD和集合的基于一个共同Key的Join操作。也能基于一个Key使用用户定义的功能实现聚合reduce操作。

  在字数统计的例子,你能map一段文本的所有文字,然后通过单词reduce他们,最后总结出单词的个数。RDD能够从磁盘读取然后保持在内存中,提高了性能,这和Hadoop大部分基于磁盘的速度要快多。

  有趣的是Spark容错方式。取代持久或检查点中间结果,Spark记住导致某个数据集的操作顺序(banq注:类似EventSourcing,记住导致状态的系列事件)。因此,当一个节点出现故障时,Spark会重建基于存储的数据集。他们认为,这其实并不坏,因为其他节点将帮助重建。因此,在本质上,相对于基本原始的Hadoop,Spark具有更小的接口(其中仍可能成为未来同样臃肿),但也有很多项目在Hadoop之上(比如Twitter的Scalding,),它实现了一个类似的水平表现力。其它主要区别在于,Spark是默认情况下在内存,这自然导致了性能改善,并且甚至允许运行的迭代算法。Spark没有内置的迭代支持,不过,这只是他们声称它是如此之快,你可以运行迭代,如果你想

  Spark还带有一个数据流处理模式,这是一个文件,该文件概述了设计是相当不错。Spark因此与Twitter的Storm框架不同之处。Storm基本上是一个管道,你推入独立的事件,然后得到以分布式方式的处理结果。相反,Spark那里事件是收集的,然后在很短的时间间隔内(假设每5秒)以批处理方式处理。所收集的数据成为自己一个RDD,然后使用通常的一套Spark应用进行处理。

  这种模式是对慢节点和容错更健壮,同时又有5秒的时间间隔通常是足够快于大多数应用。我不是很确定这一点,因为分布式计算总是非常复杂的,这种方法使用非实时流部分很好地统一了实时流处理,这当然是正确的。

  由于RDD的不可变性,如果你需要对一些数据项目进行少量改变,你得自己做一个整个数据集的拷贝,这可以使用并行完成,但是当然也是有成本的,基于Copy-on-write的实现也许在这里更有效,但是如今还没有实现。

  原文链接:http://www.jdon.com/46098

时间: 2024-08-01 05:55:03

Apache Spark是大数据领域的下一个大家伙吗?的相关文章

大数据将成为下一个“科技革命”

前不久,国务院公开发布<国务院关于印发促进大数据发展行动纲要的通知>(以下简称<纲要>). <纲要>指出,目前我国在大数据发展和应用方面已具备一定基础,拥有市场优势和发展潜力,但也存在政府数据开放共享不足.产业基础薄弱.缺乏顶层设计和统筹规划.法律法规建设滞后.创新应用领域不广等问题,亟待解决.<纲要>认为,坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长.促改革.调结构.惠民生和推动政府治理能力现代化的内在需要和必然选择. 为此,人民网陕西频

在移动、社交、云计算和大数据之后,下一个会是什么?

摘要: 我们都知道移动.社交.云计算和大数据等新的商业力量正在颠覆旧有的商业模式,它们就像历史的车轮一样,正所向披靡. 不过,我们现在必须面对的是:在移动.社交.云计算和大 我们都知道移动.社交.云计算和大数据等新的商业力量正在颠覆旧有的商业模式,它们就像历史的车轮一样,正所向披靡. 不过,我们现在必须面对的是:在移动.社交.云计算和大数据之后,下一个会是什么? 调研机构Forrester的分析师 Bryan Hopkins给出了一些答案,其中大多数都建立在移动.社交.云计算和大数据这"四架马车

快数据:大数据发展的下一个起点

大数据之所以能够坐拥一个"大"字,主要依靠源源不断且态势稳定的输入数据流.在大容量环境之下,数据的积累速度往往十分惊人,不过其分析与存储仍然困扰着不少用户. VoltDB公司软件架构师John Hugg认为,相对于传统为后续分析提供数据的简单存储机制,也许现在我们已经步入了历史的新阶段--在这里,系统完全有能力利用Apache Kafka等工具在继续保持高速数据输入的同时实现分析. -- Paul Venezia 就在大约十年之前,我们还几乎无法想象利用商用硬件对PB级别的历史数据加以

大数据医疗:下一个产业“风口”

  一边是小跑步入老龄化社会的中国国情,一边是超负荷运转.臃肿不堪的传统医疗机构,当下的医疗健康产业已经成了一个持续性的朝阳产业.正如马云所说,中国十年以后最大的麻烦是健康问题和快乐问题,认为下一个超过他的人,一定出现在健康产业里. 早在2013年,麦肯锡就认为,属于医疗行业的大数据革命到来了,甚至已经到了引爆点,因为医疗行业早就遇到了海量数据和非结构化数据的挑战. 大数据正在引爆革命 1997年上映的的美国电影<Gattaca>(<自然人>)中呈现了一个未来世界的医学形态:婴儿才

浏览器遇到大数据:预测下一个点击

每一个在海底捞有过就餐经历的人均对其服务都赞不绝口,服务员细心观察你的每一个动作,为你送上最贴心服务:眼镜布.水果等.等候大厅设有擦鞋.美甲.水果.瓜子等服务.如果是常客还可能被提供更个性化的惊喜服务.实际上,互联网产品早已在提供海底捞式的极致服务.海底捞是发挥员工主观能动性依靠个人智慧去预测和沟通用户需求并提供精细化服务,而互联网产品则凭借着技术和产品的创新不断去预测用户需求,将体验做到极致. 亚马逊: "一键下单"到"预约发货" 尽管可从模式.战略.广告.价格等

大数据将成为下一个创新发展的前沿

大数据及其应用的迅速发展,已经引起了社会各界的广泛关注,人们从各种不同的视角,对于这场大变革进行着思考和议论.为了贯彻落实<国务院关于促进信息消费扩大内需的若干意见>的工作部署,考虑到发展大数据产业面临的实际需要和对促进信息消费.拉动内需的巨大作用,通过对大数据相关产业特点及其发展趋势和我国应如何加快大数据相关产业发展进行扶持与推进的研究,我们认为我国是数据大国,但还不是数据强国,大数据相关产业将有可能成为下一个创新.竞争和产业发展的前沿.面对这场变革带来的机遇和挑战,建议国家有关部门加快组织

快数据:大数据后的下一个热点?

我们在生活或工作中会碰到以下情景:公司的女神安娜一直喜欢吃哈根达斯冰激凌,几乎每天要买一杯,但某一天,她却拿着一个DQ冰雪皇后品尝得津津有 味:公司屌丝程序员李甲上班早,加班多,完成任务代码质量高,公司团建活动也积极参与,连续多个季度是公司的优秀员工,突然某一天,态度坚决提出离职,说 要回家支教. 我让从事大数据服务的朋友来预测和解释,朋友讲,如果按大数据基本算法推测,女神安娜是不会吃DQ的,因为她的行为数据已经表明,她会继续吃哈根达斯:同样,行为大数据分析得出,程序猿李甲很快会晋升为研发经理或

大数据即服务(BDaaS):大数据行业的下一个热门

我们有软件即服务(SaaS).平台即服务(PaaS)和数据即服务(DaaS),现在把它们全部揉杂在一起,再将所涉及的数据量大幅增加,就有了大数据即服务(BDaaS). 也许这个术语不怎么为人所知,但却非常恰当地描述了一个快速成长的新市场.在过去几年中,很多企业纷纷开始提供基于云的大数据服务,以帮助其它公司和企业解决数据方面的困境. 一些人估计,到2021年企业在基于云的某某即服务上的花费将会从现在总IT开销的15%上涨到35%.鉴于到那时全球大数据市场的价值将会达到880亿美元,我们可以预测BD

专访携程李亚锋:大数据技术融合下的Spark更具魅力

大数据"作为当下最火热的IT行业词汇,在主流的数据处理工具当中Hadoop和Spark都被大家所熟悉.不过,目前基于内存计算的Spark适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,已经逐渐获得很多企业的支持.这是否意味着我们应该彻底抛弃Hadoop?在前不久的北京Spark亚太峰会上 ,记者有机会专访到携程大数据平台高级经理李亚锋,为大家分享如何通过Spark与Hadoop大数据技术间的融合,实现优势互补,引导企业发现用户的潜在需求. 李亚锋,携程大数据平台高级经理,负