据相关数据显示,2013年上半年中国手机网民规模已经突破5亿大关,预计14年第一季度,国内手机网民规模将超PC端,手机用户超过10亿,3G 用户持续增长,以及4G的强势劲头,都催生移动大数据的爆发。大量新数据无时无刻不在涌现,移动互联网正影响着人类生活的方方面面。
这将是一个前所未有的时代。所有的公司和机构都已经或者正在成为移动互联网组织。所有的公司和机构也终将是云计算大数据组织。移动互联网及云计算大数据的浪潮正在并将最终彻底的变革所有的公司和机构的架构模式、生产模式、服务模式以及管理模式。
Spark-新一代全能大数据计算平台崛起
随着大数据相关技术和产业的逐渐成熟,单个组织内往往需要同时进行多种类型的大数据分析作业:传统Hadoop MapReduce最为擅长的是离线海量数据的统计分析,由于Hadoop本身的特性,导致使用Hadoop处理大数据的结果的获取往往是要延迟在几分钟甚至是几个小时,这在很多场景下都是不可接受的。更为重要的是在Spark出现前,要在一个组织内同时完成各种机器学习算法为代表的迭代型计算、流式计算、社交网络中常用的图计算、SQL关系查询、交互式即席查询等数种大数据分析任务,就不得不与多套独立的系统打交道,一方面引入了不容小觑的运维复杂性,另一方面还免不了要在多个系统间频繁进行代价高昂的数据转储。
Spark是基于内存,是云计算领域的继Hadoop之后的下一代的最热门的通用的并行计算框架开源项目,尤其出色的支持Interactive Query、流计算、图计算等。
Spark在机器学习方面有着无与伦比的优势,特别适合需要多次迭代计算的算法。同时Spark的拥有非常出色的容错和调度机制,确保系统的稳定运行,Spark目前的发展理念是通过一个计算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多种功能于一个项目中,具有非常好的易用性。
Spark无可比拟的优势,占据云计算大数据领域霸主地位
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持(活跃开发者人数已超过Hadoop MapReduce),技术也逐渐走向成熟。
作为下一代云计算及大数据的核心技术,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了 100倍以上。甚至在Hadoop最擅长的离线数据统计分析领域,Spark比Hadoop也至少快了一个几何级数;Spark另外一个无可取代的优势是:“One Stack to rule them all”,Spark采用一个统一的技术堆栈解决了云计算大数据包括如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统;这直接奠定了其一统云计算大数据领域的霸主地位;
Spark应用现状及未来发展
目前SPARK已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。
国外一些大型互联网公司已经部署了Spark.甚至连Hadoop的早期主要贡献者Yahoo现在也在多个项目中部署使用Spark;国内的淘宝、优酷土豆、网易、Baidu、腾讯等已经使用Spark技术用于自己的商业生产系统中,国内外的应用开始越来越广泛。
前段时间,mahout宣布了一个重大的消息,mahout社区表示从现在起,他们将不再接受任何以MapReduce形式实现的算法,但是他们仍然将维护那些常用算法的MapReduce实现。另一方面,mahout宣布新的算法将基于Spark实现,他们相信Spark更丰富的编程模型及更优秀的性能将对mahout有着至关重要的作用。另一方面,Cloudera的机器学习框架oryx的执行引擎也会替换成Spark,之前oryx也是使用 mapreduce.种种迹象表明,Spark已经开始各种屠杀了,非常有希望成为新一代分布式机器学习事实上的标准。让我们拭目以待。Spark正在逐渐走向成熟,并在这个领域扮演更加重要的角色。