Spark1.2新特性概述

【编者按】在2014年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonworks、IBM、Cloudera、MapR和Pivotal等众多知名大数据公司,更拥有Spark SQL、Spark Streaming、MLlib、GraphX等多个相关项目。那么如此多的关注下,Spark又会有什么样的变化,下面我们一起看Spark Contributor、Spark布道者陈超总结的Spark 1.2版本新特性:

下为原文

1.2居然真的在12月份发布了,我表示略感意外,我一直以为稍微跳个票要到明年一月初才能发的。这次更新有172个开发者参与,并且有1000多个commits。这真是一个了不起的数字。本次版本给我们带来了很多新特性,并且也有不少的性能优化点。我说几个比较重要的吧。

Spark Core:

1、在传大量数据的情况下,communication manager终于换成netty-based的实现了。之前的实现慢的要死是因为每次都要从磁盘读到内核,再到用户态,再回到内核态进入网卡,现在用zerocopy来实现了。(想起来没,Kafka也是用的这个)。

2、shuffle manager换成sort based了,在shuffle数据比较大的时候,性能会有提升。不过也有不少人认为这个Hadoop的sort是一样的,微博上也有人提出了这一点,本想回复解释时,发现连城已经回复了。其实目前Spark的sort只是按照Partition key排序,Partition内部目前是不排序的,不过就算内部要排序,也是比较容易实现的。而Hadoop是按照每个Partition内的每个KV排序的。

Spark Streaming :

终于“号称”支持fully H/A模式了。以前当driver挂掉的时候,可能会丢失掉一小部分数据。现在加上一层WAL(write ahead log),好多地方都在用这玩意儿,还记得HBase的write path吗?每次写到memstore之前都会写到一个叫HLog的地方,以防止数据丢失。回到这个问题,每次receiver收到数据后都会存在HDFS上,这样即使driver挂掉,当它重启起来后,还是可以接着处理。当然WAL的实现也还是那样子,到driver重启后,要recover data,并且也要clean掉那些过时的数据。

当然,我还要特别提醒下 unreliable receivers和reliable receivers这两个事情,有兴趣的自己去看下什么个情况吧。

MLlib

这里最重大的改变应该是Pipeline了,很多从事机器学习的朋友肯定会有兴趣的。MLlib的老大祥瑞在北京已经谈过这个了,这里不展开,需要指出的是,目前MLlib是用SchemaRDD来代表数据集的。也就是说,打通了Spark SQL与MLlib间的通道。话说在一起吃饭时我揪着祥瑞谈了一些DataBricks Cloud的事情,没问MLlib的事情,就知道他回来度个假,PR已经急剧增加了。

GraphX

这一版本最引人注意的应该是给出了stable api,这意味着你们不用担心现在写的代码以后还要由于API的变化而改动了。插播广告,下周杭州Spark Meetup,会有GraphX的一个精彩主题。

Spark SQL

把这块放最后的原因是,Spark SQL真是太火了,所以你们要提PR就赶快提,赶快响应,赶快merge,不然保不准在短时间内就给你来个conflict。这版本最重要的特性毫无疑问应该属于external data source吧,套用连城PPT上的一句话,push predicates to datasource,什么意思呢,譬如你要从HBase取数据后做一些筛选,一般我们需要把数据从HBase全取出来后在Spark引擎中筛选,现在呢,你可以把这个步骤推到Data Source端,让你在取数据的时候就可以筛选。当然,这块肯定还会有很大的改动。

另一点必须要指出,我以前在很多场合都提醒大家,Spark SQL中缓存表一定要用cacheTable(“tableName”)这种形式,否则无法享受到列式存储带来的一系列好处,但是很多朋友仍然采用rdd.cache这种原生的方式来缓存,社区也意识到这样不行,所以现在无论是cacheTable还是直接cache,都是表达相同的语义,都能享受到列式存储带来的好处。

原文链接:Spark1.2新特性概述 (责编/仲浩)

欢迎订阅“CSDN大数据”微信号获得更多大数据生态圈信息。

欢迎关注@CSDN云计算微博了解最新云计算及大数据资讯。

时间: 2024-10-30 13:26:49

Spark1.2新特性概述的相关文章

《驯狮记——Mac OS X 10.8 Mountain Lion使用手册》——1.2 OS X Mountain新特性概述——从iOS获得的灵感

1.2 OS X Mountain新特性概述--从iOS获得的灵感 驯狮记--Mac OS X 10.8 Mountain Lion使用手册 OS X Mountain Lion作为OS X系统的第9个版本,拥有超过200个新特性,其中,许多新特性的灵感来自于苹果的移动设备系统.这次移植不仅像Lion那样给大家带来了惊喜,还带来了不同寻常的震撼效果,改变着我们的生活.此次,OS X Mountain Lion系统不仅不推出光盘载体,也不再推出以Flash存储介质的系统,而只支持从Mac App

ASP.NET2.0新特性概述

asp.net ASP.NET技术从1.0版本升级到1.1变化不是很大.然而,从ASP.NET 1.x升级到2.0,却不是件轻而易举的事情.ASP.NET 2.0技术增加了大量方便.实用的新特性.ASP.NET 2.0主要提供控件.页面框架.服务与APIs等3个方面的技术特性.           控件         在ASP.NET 1.x时代,由于内置服务器控件数量有限.功能覆盖面窄,因此,开发人员怨声载道.为了消除这个技术软肋,ASP.NET 2.0做出了突破性改进.在ASP.NET 2

ASP.NET2.0新特性概述_实用技巧

ASP.NET技术从1.0版本升级到1.1变化不是很大.然而,从ASP.NET 1.x升级到2.0,却不是件轻而易举的事情.ASP.NET 2.0技术增加了大量方便.实用的新特性.ASP.NET 2.0主要提供控件.页面框架.服务与APIs等3个方面的技术特性.       控件 在ASP.NET 1.x时代,由于内置服务器控件数量有限.功能覆盖面窄,因此,开发人员怨声载道.为了消除这个技术软肋,ASP.NET 2.0做出了突破性改进.在ASP.NET 2.0中,新增数十个服务器控件.根据控件功

SQL Server 2008的新特性概述:集成服务

SSIS(SQL Server集成服务)是一个嵌入式应用程序,用于开发和执行ETL(解压缩.转换和加载)包.SSIS代替了SQL 2000的DTS.整合服务功能既包含了实现简单的导入导出包所必需的Wizard导向插件.工具以及任务,也有非常复杂的数据清理功能.SQL Server 2008 SSIS的功能有很大的改进和增强,比如它的执行程序能够更好地并行执行.在SSIS 2005,数据管道不能跨越两个处理器.而SSIS 2008能够在多处理器机器上跨越两个处理器 .而且它在处理大件包上面的性能得

Servlet 3.0新特性详解

简介:Servlet 是 Java EE 规范体系的重要组成部分,也是 Java 开发人员必须具备的基础技能, Servlet 3.0 是 Servlet 规范的最新版本.本文主要介绍了 Servlet 3.0 引入的若干重要新特性,包括 异步处理.新增的注解支持.可插性支持等等,为读者顺利向新版本过渡扫清障碍. Servlet 3.0 新特性概述 Servlet 3.0 作为 Java EE 6 规范体系中一员,随着 Java EE 6 规范一起发布.该版本在前一版本 (Servlet 2.5

《Windows 8 开发权威指南:HTML5 和JavaScript卷》——第2章 HTML5 JavaScript概述以及新特性 2.1 HTML5概述

第2章 HTML5 JavaScript概述以及新特性 2.1 HTML5概述 HTML5已经推出,Web也不会是一成不变的. 以前你一定听说过这句话或类似的内容. 我想,当你听到这句话时,可能会变得很激动,转动眼珠.皱着眉头一脸疑问. 也可能这三种反应你都有.有这些反应,我非常能理解. HTML5 十分令人称道,正如我们所知,它可能会改变 Web,但它的作用也被夸大了. 而且,它的真正意义还难以琢磨. 在使用 HTML5 构建应用程序时,我自己也有过上面所说的每一种反应. HTML5 是一个宽

VNX OE for Block v05.32.000.5.006和VNX OE for File v7.1.47.5的新特性和增强功能概述

故障现象: VNX OE (Operating Environment) 操作环境新版本已正式发布.对应Block和File的版本号分别为VNX OE for Block v05.32.000.5.006和VNX OE for File v7.1.47.5.现在就本次新版本VNX OE更新里所含的新内容做一个概要的总结. 解决方案: 新特性和增强功能 ·VNX数据块至统一存储(Block to Unified)即插即用升级服务:此功能允许用户实施块至统一存储的升级. ·升级准备检查工具(Upgr

Java SE 6 新特性: HTTP 增强

2006 年底,Sun 公司发布了 Java Standard Edition 6(Java SE 6)的最终正式版,代号 Mustang(野马).跟 Tiger(Java SE 5)相比,Mustang 在性能方面有了不错的提升.与 Tiger 在 API 库方面的大幅度加强相比,虽然 Mustang 在 API 库方面的新特性显得不太多,但是也提供了许多实用和方便的功能:在脚本,WebService,XML,编译器 API,数据库,JMX,网络和 Instrumentation 方面都有不错

Oracle 10G First Release的新特性简介(上)

oracle Oracle 10G First Release的新特性简介(上)   By Fenng 2003-6-8   Oracle(www.oracle.com)公司早已经宣称,Oracle 9i数据库只是一个过渡性的产品,真正的技术革新很可能在下一版,也就是通常说的10i(内部可能的版本号是2003,以下简称10i,估计在正式发行的时候会有一个新的名字)中体现出来.很多技术人员可能都会比较关心Oracle 10i究竟能有哪些新功能,是否能提供一些激动人心的新特性?我们在这里对Oracl