Spark连续重大更新 热度急增

文章讲的是Spark连续重大更新 热度急增,由于移动互联网数据量庞大且类型多样的特性,分布式计算在这一领域极受欢迎。Hadoop无疑是大数据开源环境下的王者,而本文的主角Spark和Storm与其一起并列为最主流的三大分布式计算系统。今年1月初,大数据处理技术Spark刚刚更新了1.6版本,近日又爆出,Spark下一个重大版本——2.0预计在今年4、5月释出。

  Spark相关背景

  Spark由加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)所开发,可用来构建大型的、低延迟的数据分析应用程序。Spark的创建原因是为了支持分布式数据集上的迭代作业,它是与Hadoop相似的开源集群计算环境。但与Hadoop不同,Spark在工作负载方面比Hadoop表现更加优越,Spark启用了内存分布数据集,所以,除了能够提供交互式查询外,它能够优化迭代工作负载。

  Spark在Scala语言中实现,它将Scala用作其应用程序框架。Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。

  Spark此次更新内容

  近日,Spark创办人、Databricks技术长Matei Zaharia,在2016 Spark Summit上揭露了Spark 2.0的3大主要特色:

  • 能大幅提升Spark平台效能的Project Tungsten即将进入第二阶段(Spark 1.5是Tungsten项目的第一阶段);
  • Spark 2.0将提供涵盖完整阶段的程式码产生器;
  • Spark 2.0将提供可运行在SQL/Dataframe上的结构化串流即时引擎,并统一化Dataset及DataFrame。

  Spark从1.4到1.6版本时,便开始靠Tungsten来优化Spark的资料处理效能,除了加入二进位的储存方式,以及基础的程式码产生器,也增加了用来描述RDD结构的DataFrame格式,以及新的资料集API(Dataset API),让Tungsten可被运行在使用者专案中来提升效能表现。

  在1.6版本时,Spark新增了基于DataFrame的扩充元件Dataset API,相较于过去的RDD API,Dataset提供更好的记忆体管理效能,及较佳的长时间执行效能。而Spark2.0版本则将进一步提供涵盖完整阶段的程式码产生器,不仅能移除递迴式呼叫,减少效能损耗,还能进行跨运算子之间的整合,并藉由Parquet及内建快取(Built-in Cache)来优化I/O效能。

  预计Spark2.0的效能将翻9倍,从1.6版时每秒可处理的1,400万个栏位,暴增到1亿2,500万,其中的Parquet效能,也将从每秒1,100万提升到每秒9,000万笔。

  Spark热度大增,未来一片光明

  Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。2005年,Yahoo工程师Doug Cutting和Mike Cafarella合作开发了分布式计算系统Hadoop,而后,Hadoop成为了Apache基金会的开源项目。Facebook、Amazon以及国内百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建了自己的分布式计算系统。

  Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。实际上Spark是对Hadoop的补充,它通过第三方集群框架Mesos作为支持,可在Hadoop文件系统中并行运行。Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop 100倍的运算速度。近年来,Spark也隐隐有了赶超Hadoop(Map/Reduce)的迹象。

  Spark的优势不仅体现在性能提升上,Spark框架为批处理(Spark Core),交互式(Spark SQL),流式(Spark Streaming),机器学习(MLlib),图计算(GraphX)提供一个统一的数据处理平台,这相对于Hadoop(Map/Reduce)有很大优势。

  并且,由于Hadoop自身还存在着一些缺陷,例如表达力欠缺、无整体逻辑、时延高等等,所以,网络上Spark会替代Hadoop的呼声不断。而目前看,Spark在各个场合下的应用都优于Hadoop(Map/Reduce)。所以,在新一代的大数据处理平台中,Spark得到了最广泛的认可和支持。

  由Spark团队原班人马成立的Databricks公司曾表示,Spark技术在2015年有非常显著的成长,其贡献者在2015年已经超过1000人,是2014年的2倍,参与各地区定期聚会的会员数量也从1万多人暴增至6万多人。

  但Hadoop与MR是的初衷是为了使用廉价的、异构的机器来做分布式存储与计算,而Spark却对硬件的要求稍高,对内存/CPU是有较高要求的。若不考虑成本因素,Spark应会一片光明。

  不过,Databricks公司联合创始人、Spark首席架构师辛湜曾在2015年底时提到:“Spark在中国市场发展有三个趋势:第一是更多样化的应用,第二是更多样化的环境,第三是更多样化的用户,基本上可以说是Spark的多样性发展。而最后一个稍微前瞻一点,就是对新硬件的支持。”

作者:崔月

来源:IT168

原文链接:Spark连续重大更新 热度急增

时间: 2024-11-03 13:33:33

Spark连续重大更新 热度急增的相关文章

青鸟小弟,请问用AJAX技术做的聊天室,一个页面发送 信息(Message),而另一个页面无法达到及时更新数据,当另一个页面发送数据的时候,才能更新数据!急求?

问题描述 青鸟小弟,请问用AJAX技术做的聊天室,一个页面发送信息(Message),而另一个页面无法达到及时更新数据,当另一个页面发送数据的时候,才能更新数据!急求解决问题的方案用到的技术JSP,Struts2,Hibernate,Spring,用到的内置对象:application:这个关键--是存放发送的信息的,Session:这个主要是区别不同登录用户???请问如何达到要求,一个页面发送信息,另一个页面也更新数据,大前提:不要刷新页面,我用的就是AJAX技术,我急求高手指点一下菜鸟小弟,

中兴国际热度暴增幕后:令美国人担心的跨国品牌

NBA克利夫兰骑士队历史上第一次中国新年庆祝比赛的热烈气氛尚未消尽,穿着旗袍的篮球宝贝似乎还在美国球迷的脑海中跳跃,这场比赛的赞助商中兴通讯却遭到了美国商务部的"出口限制".中兴通讯,这个赞助多家NBA球队的中国知名品牌企业,早已是美国手机市场炙手可热的名牌,却为何遭遇如此待遇?业内人分析,可能正是中兴通讯的迅速崛起,甚至在美国手机市场突然爆发似增长,引发美国高度关注. "幸运兴"国际热度暴增 "中兴通讯一下子变成了有高度国际热度的厂商,不一定是坏事,&q

mongodb-Mongodbtemplate批量更新问题 急急急 谢谢

问题描述 Mongodbtemplate批量更新问题 急急急 谢谢 有一个学生实体类,他有一个兴趣属性如 private String id: private String name; private List hobbys; 我怎么一次性批量 更新 很多学生中兴趣为打篮球的 改为踢足球呢? 用mongodbTemplate怎么写呢 解决方案 链表没法直接更新修改 只能一个个读取出来替换

灾区食品供应日趋紧张浙江部分企业涉日订单急增

浙江部分企业涉日订单急增 日本"3·11"大地震后,灾区食品供应日趋紧张. 企业加班加点赶货优先供应日本地震灾区 海关开启绿色通道确保快速通关 早报记者陆玫 昨天,早报记者从浙江省绍兴海关获悉,日本"3·11"大地震后,灾区食品供应日趋紧张,绍兴多家食品企业涉日订单出现增长,目前这些企业正积极筹备原材料,加快订单生产,绍兴海关同时开启绿色通道,全力保障赴日物资快速通关. 涉日订单可随时通关 13日,虽然是周日,但在浙江丰岛食品有限公司的生产车间内,工作人员正忙着包装

吉利汽车08年净利润较上年同期急增1.9倍

信达国际 黄敏硕 发改委公布全国36大中城市的汽车价格,按月微跌0.09%,同比则降0.7%,惟早前中国汽车业协会的数字显示,国内汽车的产销量再创下历史新高,分别达115.7万及115.3万辆,按年分别上升17.9%及25%.在中央宽免汽车购置税以及"汽车下乡"等措施下,汽车销路将可获支持.内地目前已有10款 新能源汽车获当局的生产批准,将陆续上市,预料新能源汽车有望成为内地汽车业的新宠,带动整体销售.吉利股价近日不断受并购传闻刺激上升,继早前的Volvo后,又有指公司会竞购通用汽车旗

《洛奇英雄传》22日更新独立版本增跳跃功能

7月16日,NEXON举办了动作RPG游戏<洛奇英雄传OL>"独立版本"之<eXtreme Edition>(以下简称:洛奇英雄传XE)的新闻发布会,并表示即将于7月22日发布,新版变化和特点我们可以通过以下视频介绍了解. 首先,<洛奇英雄传XE>不是新加入的游戏元素,而是新加入的服务器形式.玩家可以在原有的服务器里选择登录XE服务器进行游戏. <洛奇英雄传XE>是简单独立的<洛奇英雄传>版本.游戏里减少了许多制约内容,提高了

有关批量更新问题.急!

问题描述 将查找出来的记录mark的值批量更改为"F",同时弹出信息框:"旧版本已作废",请大家指教.DimfdmssqlAsStringfdmssql="selectp_n,markfromdoc2wherep_n='"+tPartNum.Text.Trim+"'"DimfCnAsSqlClient.SqlConnectionDimfCmdAsSqlClient.SqlCommandfCn=NewSqlClient.SqlC

SwipeSelection更新 Pro版增更多专享功能

SwipeSelection 是一款非常受欢迎的插件,它的功能就是让用户在输入的文字中随意的移动光标.目前这款插件已经针对 iOS 7 发布了更新. SwipeSelection是一款非常受欢迎的插件,它的功能就是让用户在输入的文字中随意的移动光标.目前这款插件已经针对iOS7发布了更新.此外开发者还推出了收费版本SwipeSelectionPro,添加许多新的特性和功能,包括在应用内禁用.滑动敏感度.光标速度等.SwipeSelectionPro是在SwipeSelection的框架基础上开发

香港再确诊新流感日本个案急增

香港再证实一宗由美国输入的甲型H1N1新型流感(俗称猪流感)个案.患者是名23岁男子,上周六(16日)由美国抵港时,出现发烧,由机场直接送往玛嘉烈医院隔离. 食物及卫生局副局长梁卓伟表示,本港发现的3宗确诊新型流感个案,全属外地输入,本港学校毋须停课. 此外,新型流感疫情继续在世界各地扩散,其中在日本的感染人数近日急增至96宗,大部分更是在本土感染. 世界卫生组织(WHO)紧急委员会委员.日本国立传染病研究所流感研究中心主任田代真人接受当地传媒专访时指出,正密切留意日本情况,若证实当地出现社区爆