将Spark部署到Hadoop 2.2.0上

  本文介绍的是如何将">Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。

  需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在 Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业管理功能,资源调度要依托于第三方系统,比如YARN或Mesos等 (2)之所以不采用Mesos而是YARN,是因为YARN拥有强大的社区支持,且逐步已经成为资源管理系统中的标准。

  注意,目前官方已经发布了0.8.1版本,可以直接从这里选择合适的版本下载,如果你使用的是hadoop 2.2.0或者CDH5,可以直接从这里下载。

  将Spark部署到Hadoop 2.2.0上需要经过以下几步:

  步骤1:准备基础软件

  步骤2:下载编译spark 0.8.1或者更高版本

  步骤3:运行Spark实例

  接下来详细介绍这几个步骤。

  步骤1:准备基础软件

  (1) 基本软件

  包括linux操作系统、Hadoop 2.2.0或者更高版本、Maven 3.0.4版本(或者最新3.0.x版本),其中,Hadoop 2.2.0只需采用最简单的方式安装即可,具体可参考我的这篇文章:Hadoop YARN安装部署,Maven安装方法很简单,可以在http://maven.apache.org/download.cgi上下载binary版本,解压后,配置MAVEN_HOME和PATH两个环境变量,具体可自行在网上查找相关方法,比如这篇“Linux下安装maven”,但需要注意,版本不是3.0.x版,Spark对版本要求很严格。

  (2)硬件准备

  Spark 2.2.0专门搞出来一个yarn-new支持hadoop 2.2.0,因为hadoop 2.2.0的API发生了不兼容变化,需要使用Maven单独编译并打包,而编译过程非常慢(一般机器,2个小时左右),且占用内存较多,因此,你需要一 台满足以下条件的机器作为编译机:

  条件1:可以联网:第一次编译时,maven需要从网上下载大量的jar包,速度比较慢,如果你网络不行,建议直接放弃编译。

  条件2:内存2GB以上

  步骤2:下载编译spark 0.8.1或者更高版本

  可以用git下载或者直接wget或者spark 0.8.1版本

  wget https://github.com/apache/incubator-spark/archive/v0.8.1-incubating.zip

  注意,0.8.1之前的版本不支持hadoop 2.2.0,从0.8.1版本开始支持。

  下载之后,对其解压:

  unzip v0.8.1-incubating

  然后进入解压目录,输入以下命令:

  cd incubator-spark-0.8.1-incubating

  export MAVEN_OPTS=”-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m”

  mvn -Dyarn.version=2.2.0 -Dhadoop.version=2.2.0  -Pnew-yarn -DskipTests package

  一般需要等待很长时间,编译完成后,将spark内核打包成一个独立的jar包,命令如下:

时间: 2024-08-22 15:19:41

将Spark部署到Hadoop 2.2.0上的相关文章

新手入门:Spark 部署实战入门

Spark简介 整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用: 基本概念 Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架. 第一步分割任务.首先我们需要有一个fo

Spark的RDD原理以及2.0特性的介绍(转)

Spark 是什么  Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作.包括离线计算或交互式查询.数据挖掘算法.流式计算以及图计算等.全世界有许多公司和组织使用或给社区贡献代码,社区的活跃度见 www.github.com/apache/spark. 2013 年开始 Spark开发团队成立 Databricks,来对 Spark 进行运作和管理,并提供 Cloud 服务.Spark 社区基本保持一个季度一个版本,不出意外的话 Spark 2.0

《Spark核心技术与高级应用》——2.2节Spark部署

2.2 Spark部署Spark部署主要包括Local模式部署.Standalone模式部署.YARN模式部署.Mesos模式部署(参考官方文档).其中,集群部署模式如下:独立部署模式:Spark自带的一种简单集群管理器,使用该集群管理器可以轻松地建立一个集群:Apache Mesos:一个通用的集群管理器,该集群管理器也可以运行MapReduce和服务应用(实际业务没有采取该种架构,本书没有对该模式进行专门讲解,如需要了解,请参考官方文档):Hadoop YARN:Hadoop 2中的资源管理

实现Spark部署 依赖供应商还是"自力更生"?

Apache Spark用户经常面临一个困境:继续获取来自供应商的支持还是更新版本,使用具有更新功能的快速移动的开源软件? Novantas公司将Spark数据处理引擎作为商业Hadoop发行版的一部分.这样使得分析服务和软件提供商与Spark版本的Hadoop软件包支持的Spark版本捆绑在一起,因此,它不一定能立即访问新的Spark功能 例如,Novantas在今年年初开发的基于Hadoop的应用程序中使用了Spark 1.4,以帮助银行的分析团队在内部系统中找到相关的客户和财务数据.该版本

Hadoop迈入2.0时代 更适合企业应用

"现在是企业应用Hadoop的最佳时机."Hortonworks公司首席技术官Jeff Markham在11月底举行的2013中国Hadoop技术峰会上演讲时表示.在本次峰会上,Hadoop进入2.0时代成了人们谈论的焦点.Jeff Markham表示,Hadoop 2.0拥有更强大.更广泛的符合企业用户需求的新特性,弥补了Hadoop 1.0的不足之处,更符合企业用户的需求. Hadoop改头换面 Jeff Markham在介绍Hadoop 2.0的新特性时,记者听到身后有人窃窃私语

Hadoop 2.3.0解决了哪些问题

Hadoop 2.3.0已经发布了,其中最大的亮点就是集中式的缓存管理(HDFS centralized cache management).这个功能对于提升Hadoop系统和上层应用的执行效率与实时性有很大帮助,本文从原理.架构和代码剖析三个角度来探讨这一功能. 主要解决了哪些问题 用户可以根据自己的逻辑指定一些经常被使用的数据或者高优先级任务对应的数据,让他们常驻内存而不被淘汰到磁盘.例如在Hive或 Impala构建的数据仓库应用中fact表会频繁地与其他表做JOIN,显然应该让fact常

eclipse/intellij idea 远程调试hadoop 2.6.0

很多hadoop初学者估计都我一样,由于没有足够的机器资源,只能在虚拟机里弄一个linux安装hadoop的伪分布,然后在host机上win7里使用eclipse或Intellj idea来写代码测试,那么问题来了,win7下的eclipse或intellij idea如何远程提交map/reduce任务到远程hadoop,并断点调试? 一.准备工作 1.1 在win7中,找一个目录,解压hadoop-2.6.0,本文中是D:\yangjm\Code\study\hadoop\hadoop-2.

在虚拟主机上部署ASP.NET AJAX 1.0 Beta的程序集

ajax|asp.net|程序|虚拟主机 由于ASP.NET AJAX 1.0 Beta将所需的程序集注册到了GAC中,因此有朋友担心无法在虚拟主机上部署ASP.NET AJAX了(总不见得让服务商在GAC中安装那些程序集吧).其实解决这个问题的方法非常简单.由于ASP.NET在搜索GAC之前,会首先在Bin目录中查找所需的程序集,因此只需简单地将所需的程序集复制到Web Site的Bin目录下即可. 当然,这只是部署ASP.NET AJAX 1.0程序集的方式,并不排除由于虚拟主机上的设置导致

使用Advanced Installer 自动部署 Arcgis Engine Runtime 10.0

原文:使用Advanced Installer 自动部署 Arcgis Engine Runtime 10.0       目前采用Arcgis9.2 + c#(vs2008)作为程序开发平台,是一个不错的搭配.(虽然标准搭配是9.3+vs2008)但是到目前面临了一个很严重的问题,就是arcgis desktop的license到2011年11月11日到期,虽然ae的许可是无限期的,但是将影响arcmap软件编辑处理图形.无奈之下,需要尽快升级到arcgis10.0,这个版本目前有无限期的许可