Spark点燃近实时大数据之火

在用户体验达不到所宣传效果之后,IT领域中必然会随之出现“新的热门事件”。目前的新热门事件涉及大数据和对海量分布式数据的快速精准分析。

在目前的大数据领域中,Hadoop被作为存储和分配海量数据的软件,而MapReduce则被作为处理这些海量数据的引擎。两者整合在一起可以批处理一些对时效性没有过高要求的数据。

那么对于近实时大数据分析应当怎么办呢?作为最先进的下一代开源技术Apache Spark已经为视频、传感器、交易等流数据的分析、机器学习、预测建模创造了条件。它们可以用于基因组研究、封包检测、恶意软件探测和物联网。

Spark不仅可像MapReduce那样用于批处理,对于需要与数据集进行大量交互的算法,Spark还可以将这些运算的中间结果存储在缓存中。 相比之下,在带入系统进行下一步处理前,MapReduce必须要将每步运算的结果写入磁盘。这种在内存中对弹性分布式数据集(RDD)的快速处理可以说 是Apache Spark的核心能力。

Salient Federal Solutions公司一直致力于使用Spark为政府机构开发分析产品。该公司预测分析主任Dave Vennergrund称:“一旦执行对数据集的操作,它们能够进行相互连接,从而使得转换能够被迅速完成。加之它们能够同时跨多台机器做这一工作,这使 得我们能够迅速做出反应。”

Spark的支持者认为,与竞争对手相比,Spark在扩展性和速度方面都具有优势。突出表现为在小数据集升级为拍字节后,它们仍然能够出色地工 作。在2014年11月份的基准竞赛中,Apache Spark整理100太字节数据的速度比Hadoop MapReduce快了三倍,并且其机器集群的规模是MapReduce的十分之一。

据软件开发公司Typesafe近期观察显示,对Spark感兴趣的机构在数量上正在不断增长。数据显示,目前13%的受访者正在使用Spark, 约30%的受访者正在对Spark进行评估,20%的受访者计划在今年某一时候开始使用Spark。另有6%的受访者希望在2016年或更晚时候使用 Spark。此外,28%的受访者还对Spark不了解,认为它们还不成熟。

Salient 的数据分析中心副总裁Cindy Walker称:“对于政府来说,他们正在进行测试与评估。早期部署者都是那些有沙盒和研发预算的部门。我们的许多客户现在对大数据部署、内存分析、流解 决方案都还没有划定能力底线。因此,我们目前正在使用Spark帮助他们设定合理的目标。”

虽然Spark还无法取代MapReduce,但是它们最终将成为大数据分析领域的一部分,推动数据被以更快的速度处理。

Apache Spark生态环境有以下几个组成部分:

Spark Core:平台的底层执行引擎,支持大量应用以及Java、Scala和Python等应用程序接口(API)。

Spark SQL(结构化查询语言) :用户可通过其探究数据。

Spark Streaming:可对来自推特的流数据进行分析,并且让Spark具备批处理能力。

机器学习库 (MLlib):一种分布式机器学习架构,交付高质量算法的速度比MapReduce快100倍。

Graph X:帮助用户以图形的形式表现文本和列表数据,找出数据中的不同关系。

SparkR:针对R统计语言的程序包。R用户可通过其在R壳中使用Spark功能。

BlinkDB:大型并行引擎。允许用户对海量数据执行类SQL查询,在速度重要性高于精确性的情况下非常有用。

本文作者:佚名

来源:51CTO

时间: 2024-09-21 21:22:29

Spark点燃近实时大数据之火的相关文章

【Hadoop Summit Tokyo 2016】使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析

本讲义出自Pankaj Rastogi与Debasish Das在Hadoop Summit Tokyo 2016上的演讲,主要分享了网络数据相关知识.网络异常DDoS攻击以及使用基于Lambda架构的Spark的近实时的网络异常检测和流量分析的架构设计,并分享了Trapezium的相关概念.

争分夺秒:阿里实时大数据技术全力助战双11

12月13-14日,由与阿里巴巴技术协会共同主办的<2017阿里巴巴双11技术十二讲>顺利结束,集中为大家分享了2017双11背后的黑科技.本文是<争分夺秒:阿里实时大数据技术助战双11>演讲整理,主要讲解了阿里巴巴实时大数据和相关的机器学习技术,以及这些技术如何运用于阿里巴巴几十个事业部,实现大数据升级,最终取得卓越的双11战果,内容如下. 分享嘉宾:   大沙,阿里巴巴高级技术专家,负责实时计算Flink SQL,之前在美国脸书任职,Apache Flink committer

实时大数据存储-实时大数据写入数据库

问题描述 实时大数据写入数据库 项目:IOCP的多线程(工作线程)解析大量客户端发送过来的数据:这个数据量是非常大的,上千个客户端,每50MS发送一个数据包过来,要把他们写入数据库.以下是我做的两种设计,均不能成功. 1.简单地通过程序一条一条地执行SQL语句写入数据库,失败,效率极低,淘汰. 2.我目前的处理是把这个SQL语句做一个拼接(...+SQL语句+;+SQL 语句+:+...),然后一并执行,写入数据库,但是这么设计的话,内存会一直涨,因为写入数据库的速率小于IOCP解析出来的数据所

实时大数据存储及查询分析解决方案

问题描述 实时大数据存储及查询分析解决方案 上千辆设备每隔10秒上传一次数据,我要把数据存储起来,然后在基于这些数据进行查询分析, 担心传统的做法后期会有很大的性能问题,请教有做过这方面的经验的高手共享一下思路. 解决方案 你这种情况就非常适合使用基于Hadoop的HBase来存储数据,HBase不仅仅适合于做大数据的存储和处理,它的一个突出的性能优势就是写数据, 你的系统每隔10s就要写一次数据,Hbase就比较适合,最好不要使用传统的关系型数据库(例如MySql),这会让你的系统在后期出现许

大数据已经火了四五年,但你真的知道怎么用它来驱动产品和运营吗?

编者按:本文作者为桑文锋,Sensors Data 创始人&CEO,前百度大数据部技术经理.2005 毕业于浙江大学计算机系,2007年 加入百度并负责组建并带领团队,从零实现了百度用户日志的大数据平台. 一.大数据思维 在 2011年.2012年 大数据概念火了之后,可以说这几年许多传统企业也好,互联网企业也好,都把自己的业务给大数据靠一靠,并且提的比较多的大数据思维. 那么大数据思维是怎么回事?我们来看两个例子: [案例 1:输入法] 首先,我们来看一下输入法的例子.我 2001年 上大学,

Hadean完成260万美元融资,将颠覆 Spark、Hadoop等大数据框架

众所周知,利用算法分析不同规模的数据量时所需要的服务器资资源是不一样的 .许多企业在做大数据分析时,尤其是数据量非常庞大时,所需要的服务器资源仍是一笔无法避免巨大开销. 然而一家来自伦敦的公司近期声称他们创新型的解决了这一难题,他们的解决方案将在无须占用任何工程资源的前提下用算法对任意规模数据进行运算与分析. 听起来虽然不可思议,但资本还是用真金白金给出了回复.伦敦的Hadean今日完成了260万美元的种子轮投资,投资方为White Cloud Capital 和 Entrepreneur Fi

英特尔段建钢:Spark将成为下一代大数据的标准

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析.Spark由加州伯克利大学AMP实验室Matei为主的小团队使用 Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级. Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀. 9月18日,在长沙举办的第九届政企信息化策略研讨会中,来自英特尔的高级技术经理段建钢带来了"大数据技术发展剖析"的主题演讲.Hadoop改变了处理数据方

李彦宏的启迪:大数据从火到活是个慢动作

泡泡网资讯频道5月30日 "有价值的数据,不是无用的信息爆炸,而是有价值的慢数据,可以预测个性化信息的数据."这或许是2014年百度联盟峰会李彦宏发出的最掷地有声的大数据言论,当然,还有他提及的新企业级软件建言. 在此之前,大数据的火让外界一度将其捧上了云端,李彦宏的思路或许给外界仰视的目光至俯视的疑虑:在大数据的概念火完之后,如何让大数据先流动起来才具有普世意义.这座"金矿"的挖掘注定是一场革命性颠覆,而颠覆永远会是个慢动作. 末端对于入口的反哺究竟有多大? 大数

MapReduce框架下的实时大数据图像分类

MapReduce框架下的实时大数据图像分类 张晶 冯林 王乐 刘胜蓝 图像数据作为大数据的重要组成部分蕴含着丰富的知识,且图像分类有着广泛的应用,利用传统分类方法已经无法满足实时计算的需求.针对此问题,提出并行在线极端学习机算法.首先利用在线极端学习机理论得到隐层输出权值矩阵;其次根据MapReduce计算框架的特点对该矩阵进行分割,以代替原有大规模矩阵累乘操作,并将分割后的多个矩阵在不同工作节点上并行计算;最后将计算节点上的结果按键值合并,得到最终的分类器.在保证原有计算精度的前提下,将文中