让Spark如虎添翼的Zeppelin – 基础篇

Spark 是一个非常好的计算平台，支持多种语言，同时基于内存的计算速度也非常快。整个开源社区也很活跃。

但是Spark在易用性上面还是有一些美中不足。对于刚接触的人来说，上手以及环境搭建还是有一些困难。另外，如果希望将结果绘制成图表分享给别人，还需要很长一段路程。

目前已经有一些解决方案：

【TBD】Jupyter Notebook
使用很广泛，但是看起来主要还是以前ipython-notebook的增强版。
目前笔者对其了解不多
Spark 母公司DataBricks提供的DataBricks Community Edition, 里面自带Spark集群 + Notebook。
易用性、功能性都很不错。缺点是集群架设在AWS之上，无法跟自己本地的Spark 集群连在一起
Apache Zeppelin
这是一个刚刚从Incubation转正的项目
但是已经在各大公司均有采用，比如美团、微软等等
本文主要就是介绍如何在本地搭建一个Zeppelin 使得Spark更易用，同时可以很方便的将自己的工作成功展示给客户

借用别人的一个效果图镇楼^_^

注意：

Zeppelin自带Spark实例，您无需自己构建一个Spark 集群就可以学习Zeppelin
Zeppelin 当前(2016年8月19日)最新版本0.6.1, 只兼容2.0+

1)如果您本地有Spark 集群并且版本是1.6.1 + Scala 2.10 , 请下载Zeppelin 0.6.0的版本

2)如果官网的速度比较慢，可以参考下面的方式到百度盘下载

链接: http://pan.baidu.com/s/1ctBBJo 密码: e68g

1、下载

如果您需要的是0.6.0的版本，可以参考上面百度盘的下载链接。

如果您需要的是0.6.1+的版本，可以直接到官网下载，里面的Mirror下载速度一般还不错

2、安装

版本： Zeppelin 0.6.0 + 自建Spark集群(1.6.1)

感觉Zeppelin还是不太成熟，并开箱就用，还需要不少人工调整才能正常工作

1)解压之后，首先需要从模板创建一个新的zeppelin-env.sh，并设置SPARK_HOME. 比如：

1export SPARK_HOME=/usr/lib/spark

如果是基于Hadoop 或者 Mesos 搭建的Spark 集群，还需要进行另外的设置。

2)从模板创建一个新的zeppelin-site.xml，并将之前的8080端口改到比如8089，避免与Tomcat等端口冲突

<property>
<name>zeppelin.server.port</name>
<value>8089</value>
<description>Server port.</description>
</property>

3)替换jackson相关类库

a)默认自带的是2.5.*, 但是实际使用的时候指定的是2.4.4

b)并且可能2.4.4 与 2.5.* 并不完全兼容。

c)因此需要使用2.4.4 替换2.5.* ，有下面3个jar需要替换：

jackson-annotations-2.4.4.jar
jackson-core-2.4.4.jar
jackson-databind-2.4.4.jar

d)这真的是非常坑人的一个地方。。。

做完上诉几步之后，就可以启动啦：

启动/停止命令：

bin/zeppelin-daemon.sh stop/start

启动之后，打开http://localhost:8089 就可以看到Zeppelin的主界面啦

3. 配置Spark解释器

Spark Interpreter的配置非常简单，可以直接参考下图的配置方式：

4. 几点使用经验

Zeppline自带比较详细的Tutorial, 各位看自带的notebook tutorial 可能效果更好。但是我在第一次使用的时候，遇到了不少坑，在此记录下来，给大家做个参考：

(1) 任务提交之后不会自动停止

当Zeppelin 提交任务之后，可以看到Spark Master UI 上面，当前任务即使执行完成了，也不会自动退掉

这是因为，Zeppelin 默认就像人手工运行了spark-shell spark://master-ip:7077 一样，除非手动关闭shell命令，否则会一直占用着资源

解决办法就是将spark 解释器(interpreter) 重启

手动的重启办法：

1.打开Interpreter界面，搜索到Spark部分并点击重启

2.推荐：调用Restful API 进行重启。

a.可以通过Chrome的Network 监控看一下点击restart之后具体调用的API的情况。如下图：

b.这个ID(2BUDQXH2R)在各自的环境可能各不相同。另外这个API是PUT的方式，可以直接使用下面的python代码在UI上自动重启

%python
import requests
r = requests.put("http://IP:8089/api/interpreter/setting/restart/2BUDQXH2R")
print r.text

(2) 异常提示：Cannot call methods on a stopped SparkContext

比如我们在Spark Master UI 上面将当前job kill 之后，在Zeppelin这边重启执行任务就会遇到这个异常信息。

解决办法很简单：重启解析器

(3) 不要主动调用 sc.stop()

这是官方明确说明的：scala 的spark-shell 自动初始化了SparkContext / SqlContext 等等

不能自己调用sc.stop() 之后重启创建一个SparkContext

可能笔者水平原因，尝试自己创建新的sc 之后，各种奇奇怪怪的问题

(4) 关于python module

Python Interpreter可以使用当前Zeppelin所在机器的python 所有的model

同时支持python 2 与 python 3

这是一个很有用的功能，比如我使用spark将数据计算完成之后，生成了一个并不太大的csv文件。这个时候完全可以使用Pandas强大的处理能力来进行二次处理，并最终使用Zeppelin的自动绘图能力生成报表

与Tableau之类的BI工具相比功能差了一些，不过各有所长。Zeppelin 对程序员来说可以算是非常方便的一个工具了。对日常的一些简单报表的工作量大大减小了

(5) 可以设置自动运行时间

在整个Note的最上端，可以设置当前notebook 定期执行。而且注意：还可以设置执行完成之后自动重启interpreter 参考下图：

本文作者：rangerwolf

来源：51CTO

时间： 2025-01-03 09:31:59

让Spark如虎添翼的Zeppelin – 基础篇的相关文章

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

JAVA程序员必读：基础篇(8）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31 作者:ZSC 太平洋网络学院 2.6什么是接口接口是一个收集方法和常数表单的契约.当类执行一个接口,它就许诺声明在那个接口中执行所有的方法. 接口是一个设备或者一个系统,它是用于交互的无关的实体.根据这个定义,远程控制是一个在你和电视的接口:而英语是两个人之间的接口:强制在军事中的行为协议是不同等价人之间的接口.在JAVA语言中,接口是一个设备,它是用来与其它对象交互的设备.一个接口可能对一个协议是类似的.实际上,

JAVA程序员必读：基础篇(9)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.8 面向对象概念的问题和练习本节教程测试一下你对对象.类.消息等等的理解,我们是通过做一些练习以及回答一些问题来进行的. 2.8.1 问题你可以使用API文档来回答这些问题: ClickMe applet使用Color.red来设置画图颜色为红色.其它有什么颜色可以象这样来使用? 怎样设置颜色为紫色(purple)? 2.8.2 练习现在,利用你从API文档中学到的知识来修改Cl

JAVA程序员必读：基础篇(7)

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.5什么是继承一个类可以从它的父类继承状态和行为.继承为组织和构造软件程序提供了一个强大的和自然的机理. 总得说来,对象是以类得形式来定义得.你可能现在已经可以从它类知道许多对象了.即使你如知道,如果我告诉你它是一辆自行车,你就会知道它有两个轮子和脚踏板等等.面向对象系统就更深入一些了,它允许类在其它类中定义.比如,山地自行车.赛车以及串座双人自行车都是各种各样的自行车.在面向对象技术

JAVA程序员必读：基础篇（6）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.4.2初始化实例和类成员下面讲讲初始化实例和类成员: 你可以在类中定义它们的时候,使用static初始化程序和实例初始化程序来为类和实例成员提供初始化数值: class BedAndBreakfast { static final int MAX_CAPACITY = 10; boolean full = false; } 这个对于原始数据类型是没有问题的.有时候,它可以用在创建数组

JAVA程序员必读：基础篇（5）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.4实例和类成员 2.4.1理解实例和类成员下面详细讨论一下实例和类成员,具体涉及变量和方法以及类变量和方法: 你这样声明一个成员变量,比如在类Myclass中有一个float型的aFloat: class MyClass { float aFloat; } 这样你就声明一个实例变量.每次你创建一个类的实例的时候,系统就为实例创建了类的每一个实例变量的副本.你可以从对象中访问对象的实例

JAVA程序员必读：基础篇（4）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.3什么是类类实际上是对某种类型的对象定义变量和方法的原型. 在现实世界中,你经常看到相同类型的许多对象.比如 ,你的自行车只是现实世界中许多自行车的其中一辆.使用面向对象技术,我们可以说你的自行车是自行车对象类的一个实例.通常,自行车有一些状态(当前档位.两个轮子等等)以及行为(改变档位.刹车等等).但是,每辆自行车的状态都是独立的并且跟其它自行车不同. 当厂家制造自行车的时候,厂商

JAVA程序员必读：基础篇（3）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院 2.2什么是消息软件对象之间进行交互作用和通讯是利用消息的. 单一的一个对象通常不是很有用的.相反,一个对象通常是一个包含了许多其它对象的更大的程序或者应用程序.通过这些对象的交互作用,程序员可以获得高阶的功能以及更为复杂的行为.你的自行车如果不使用它的时候,它就是一堆铝合金和橡胶,它没有任何的活动.而只有当有其它的对象来和它交互的时候才是有用的. 软件对象与其它对象进行交互与通讯是利用

JAVA程序员必读：基础篇（2）

程序|程序员 JAVA程序员必读:基础篇时间:2001/09/13 13:31作者:ZSC 太平洋网络学院二.面向对象编程如果你以前从来没有使用面向对象语言,你需要在开始编写JAVA代码之前先理解这个概念.你需要理解什么是对象.什么是类.对象和类的关系怎样以及使用消息怎样在对象之间进行通讯.本教程的前面部分将描述面向对象编程的概念,而后面的教程将教你怎样将这个概念编成代码. 2.1什么是对象对象是一些相关的变量和方法的软件集.软件对象经常用于模仿现实世界中我们身边的一些对象.对象是理解面向

猜你喜欢

Spring XML配置十二个最佳实践

xml 在这篇文章里,对于Spring XML的配置,我将向你展示12种比较好的实践.其中的一些实践不仅是好的实践,更是必要的实践.除此以外,还有其他因素,例如领域模型的设计,都能影响XML的 ...

企业站新站收录大招和快照更新难的妙招

企业站框架很简单,内容也很简单,往往几个栏目几个模板就构成了一个网站,之前我们在将企业站的收录排名问题上会说,每天的原创和外链,在这里也在加一个方面--执行力. 而最近百度搜索针对新站(企业站)的收录 ...

钟智鑫：百度对新站制定出新的游戏规则（猜想）

最近一个月以来,不论是在论坛还是在群里,都有不少朋友在问:"我的站建了一个多月了,百度还没有收录,每天更新,每天发外链,就是不收录,怎么办啊?"类似于这样的问题,我自己也是亲身经历 ...

如何修复Postfix 的Relay access denied问题

最近发邮件一直有这个错误 Java代码 Apr 12 18:59:04 ZaphodBeeblebrox postfix/smtpd[10669]: NOQUEUE: reject: RCPT fro ...

Oracle RAC环境中EXECUTE_EM_DBMS_JOB_PROCS

今天一个客户咨询,他们的RAC环境中,EMD_MAINTENANCE.EXECUTE_EM_DBMS_JOB_PROCS过程频繁启动,而且占用了大量的系统资源. 这个任务每分钟运行一次,而且每次都排在 ...

PL/SQL定义部分之二复合数据类型

复合类型复合类型可以存储多个值,包括记录和集合.集合是一维的,但是可以在集合中放入其它集合,变成多维集合.集合又分为索引表.嵌套表和变长数组三种.要使用集合,我们首先要创建集合类型,然后声明该类型的 ...

oracle中如何创建新用户

oracle数据库的权限系统分为系统权限与对象权限.系统权限( database system privilege )可以让用户执行特定的命令集.例如,create table权限允许用户创建表,gr ...

PHP以指定字段为索引返回数据库所取的数据数组

很多情况下,我们从接触一个新的项目到开发完成,再回过头来仔细浏览一下自己写的代码,很多都是我们以前用熟练的代码.所以,在完成每个新项目的时候,适当的做些项目总结.代码总结,或许你会在以后的项目中用得 ...

PPT配色上面的那些技巧

其实PPT配色这个问题呢,是一个可以简单,也可以复杂的问题,简单是对有色彩感的人来说很简单,复杂是对80%的人来说很复杂,而这80%人中的80%是男生,为什么会是男生色彩感比较差呢?这和荷尔蒙有关 ...

视觉设计传达的四种东西

在大家着迷用户体验设计,关注用户研究.人机交互的时候,视觉设计好像被遗忘了.我想说的是,视觉设计一如既往地重要着.视觉设计处在产品表现层,跟诺曼先生提出的情感化设计本能层设计水平直接相关.如果想让用户 ...

快速删除windows7系统开机时出现的一键ghost选项

相信很多用户都会使用onekey这个工具软件对系统进行备份,它是一种常用的一键装机软件,只不过用户在开机的过程中会发现有一键ghost的选项,虽然它不会影响我们系统的正常运行,但是有些用户还是不喜 ...

电脑是如何工作的

现在当提到"技术"这个词的时候,大多数人都会想到计算机.计算机技术的运用可以说遍及我们生活的每一个角落,像常用的游戏机.汽车.银行.磁卡...但是计算机技术的最典型的运用无疑是 ...

电脑蓝屏后变黑屏的正确的检验维修步骤

昨天朋友说他的台式电脑开机后,进入到启动画面,出现蓝屏一闪而过,然后就变成黑屏死在那儿了.平时我们遇到蓝屏的情况比较多,蓝屏的时候有错误提示看下错误提示可以找到问题所在,但这次比较特殊蓝屏一闪而过还没 ...

R的基本绘图功能

现如今,ggplot特别火,这是因为:它是一个特别容易上手的R制图功能包.尽管如此,有时候我还是想用一些比ggplot更简洁的方法.这时候,我会选择用R里基本的绘图功能.基本款的图没有那么精致而且编程 ...

三星I679——学生生活学习好帮手

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅对于时刻要面对大大小小的英语考试的 ...

【OpenCV归纳】4 关于HighGUI

通过HighGUI(high-level graphical user interface)可以实现打开窗口.显示图像.读出和写入图像文件,处理鼠标.光标.键盘事件.而HighGUI主要分成&q ...

extjs-Extjs 表格为什么不能完整的显示在window中呢

问题描述 Extjs 表格为什么不能完整的显示在window中呢如图:为什么我的grid不能完整地显示呢,有没有大神帮我解答下解决方案 http://jobar.iteye.com/blog/19 ...

俄罗斯缺乏云计算相关法律框架造成发展影响

前段时间,小编在国外一个博客上看到了一件十分有意思的事情,这样的事情经常在电视剧里发生.文总提到的一些俄罗斯警察突击了在莫斯科的一个小企业的办公室,在对职员进行审问后,然后带着办公室所有的计算机离开了 ...

[SQL Server优化]善用系统监视器，确定系统瓶颈

原文:[SQL Server优化]善用系统监视器,确定系统瓶颈来自: http://hi.baidu.com/solorez/blog/item/f82038fa0e71b78d9e51468c.h ...

JavaScript 解析读取XML文档实例代码_javascript技巧

JavaScript解析读取XML文件,主要就是加载并解析XML文件,然后就可以测试解析的XML文件的内容,打印输出来. 在线演示:http://demo.jb51.net/js/2012/readx ...

UBUNTU手动安装JDK的详细步骤_Linux

先去 Oracle下载Linux下的JDK压缩包,我下载的是jdk-7u4-linux-i586.tar.gz文件,下好后直接解压 Step1:# 将解压好的jdk1.7.0_04文件夹用最高权限复制 ...

暴涨、闪崩、分叉，比特币风波不断，监管蓄势待发，现在是投资机会？

雷锋网(公众号:雷锋网)按:本文作者蔡凯龙,授权转载自公众号添财怪叫兽.蔡凯龙是点石资产管理创始人.百度支付海外顾问.台北金融研究发展基金会咨询顾问.他曾任联想控股旗下P2P翼龙贷副总裁,德意志银行( ...

《UNIXLinux程序设计教程》一3.1　文件描述字的打开、创建和关闭

3.1 文件描述字的打开.创建和关闭函数open()或create()用于打开或创建一个文件描述字. #include <sys/types.h> #include <sys/st ...

C语言的clock（）的单位是多少

问题描述 C语言的clock()的单位是多少比如这样测试 start=clock(); ... end=clock(); 得出来的数字的单位是毫秒吗(10^-3) 但是我测的某个程序的结果是1500 ...

请教一个正则表达式的写法

问题描述有如下的结构(从网上抓取的网页源文件):<h1>2014</h1><table><tr><td><strong>Nov ...

redis 什么时候集群，什么时候单点

问题描述 redis 什么时候集群,什么时候单点 redis 什么时候集群,什么时候单点?具体的应用场景,能描述一下么解决方案 1.并发访问量大的时候肯定要集群才能满足需求,如果用户量不大,访问不是 ...

惠普推出综合软件产品支持和专业咨询的全新软件管理服务

2011年8月25日,北京--惠普近期宣布推出综合软件产品支持和专业咨询的全新软件管理服务,以帮助客户准确预估成本.实现软件投资回报率最大化,同时改进支持体验. 惠普软件高级管理服务为惠普软件提供解决 ...

Priceline以26亿美元现金收购OpenTable

摘要: 据华尔街日报报道,在线酒店预订服务提供商Priceline以26亿美元现金收购了在线订餐服务提供商OpenTable. 据称Priceline将以每股103美元的价格现金收购OpenTable ...

关于spring中packagesToScan属性问题

问题描述我在spring中配置了自动扫描model层包的hibernate映射,但是昨天我加了权限认证类UsersRoles后,单元测试总显示org.hibernate.hql.ast.QueryS ...

WDCP面板基于PHP5.3/5.4/5.5安装soap扩展步骤

第一.安装.升级且确定PHP版本如果我们采用的是WDCP默认版本,官方默认包是PHP5.2,一般我们肯定是需要升级PHP版本的,毕竟PHP5.2的处理信息能力还是比较慢的,虽然不要求我们升级到PHP ...

热搜