Spark集群部署

  1. 安装环境简介

  硬件环境:两台四核cpu、4G内存、500G硬盘的虚拟机。

  软件环境:64位">Ubuntu12.04 LTS;主机名分别为spark1、spark2,IP地址分别为1**.1*.**.***/***。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署。

  2.  安装Scala2.9.3

  1)在/home/test/spark目录下面运行wget http://www.scala-lang.org/downloads/distrib/files/scala-2.9.3.tgz命令,下载scala的二进制包。

  2) 解压下载后的文件,配置环境变量:编辑/etc/profile文件,添加如下内容:

  export SCALA_HOME=/home/test/spark/scala/scala-2.9.3

  export PATH=$SCALA_HOME/bin

  3)运行source /etc/profile使环境变量的修改立即生效。在spark2上执行相同的操作,安装scala。

  3. 下载编译好的spark文件,地址为:http://d3kbcqa49mib13.cloudfront.net/spark-0.8.1-incubating-bin-hadoop2.tgz。下载后解压。

  4.配置conf/spark-env.sh环境变量,添加如下内容:

  export SCALA_HOME=/home/test/spark/scala/scala-2.9.3

  5. 在/etc/profile中配置SPARK_EXAMPLES_JAR以及spark的环境变量:添加如下内容:

  export SPRAK_EXAMPLES_JAR=/home/test/spark/spark-0.8.1-incubating-bin-hadoop2/examples/target/scala-2.9.3/spark-examples_2.9.3-assembly-0.8.1-incubating.jar

  export SPARK_HOME=/home/test/spark/spark-0.8.1-incubating-bin-hadoop2

  export PATH=$SPARK_HOME/bin

  6. 修改/conf/slaves文件,在文件中添加如下内容:

  spark1

  spark2

  7.使用scp命令将上述文件拷贝到spark节点的相同路径下面scp -rspark-0.8.1-incubating-bin-hadoop2 test@spark2:/home/test/spark:

  8. 在spark1上启动spark集群,并检查进程是否成功启动。如下master和worker已经成功启动。

  可以看到集群中的两个slave节点已经成功启动。

  9.        运行spark自带的例子:./run-exampleorg.apache.spark.examples.SparkPi spark://master:7077,其结果如下所示:

  在web界面能看到刚才运行的job如下所示:

  原文链接:http://blog.csdn.net/zhxue123/article/details/19199859

时间: 2024-08-01 17:51:19

Spark集群部署的相关文章

实现Spark集群部署 这些公司都经历了什么?

软件公司Intuit和Novantas经过深思熟虑,决定部署他们的第一个Spark集群,限制初始用户访问并寻找坚实的商业用途. Intuit公司建立了Spark集群,最初用于在网站和进入在线表单的数据用户的财务和会计软件分析点击流记录.但是Intuit的副总裁Bill Loconzolo并不打算使用开源数据处理引擎. Loconzolo表示,在他的印象中,Spark似乎并不是很灵活.但是尽管Spark集群设置是实验性质的,数据科学家团队也可以使用.Loconzolo说,2016年年底之前,他不打

Spark集群部署时SSH无密码登录问题

问题描述 我们是2台电脑各自装了一个VMware的虚拟机,里面是Ubuntu的系统进行操作,Spark集群一个是Master,一个是Slave1,在设置SSH无密码登陆时,Slave1把公钥发给Master时会出现:rootMaster'spassward,然后输入密码后出现:Persiondenied,pleasetryagain.这并不是密码错误的提示,而是权限不够的提示,按照网上改权限也没有效果,这是为什么需要怎么修改? 解决方案 解决方案二:不是应该将master的公钥发给slave吗解

使用Docker在本地搭建hadoop,spark集群

本环境使用的单个宿主主机,而不是跨主机集群,本spark集群环境存在的意义可能在于便于本地开发测试使用,非常轻量级和便捷.这个部署过程,最好在之前有过一定的hadoop,spark集群部署经验的基础,本文重点在于docker相关的操作,至于hadoop和spark集群的部署,极力推荐这两个网页: Hadoop集群:http://blog.csdn.net/stark_sum ... 24279. Spark集群:http://blog.csdn.net/stark_sum ... 58081 主

《Spark大数据处理:技术、应用与性能优化》——第2章 Spark集群的安装与部署2.1 Spark的安装与部署

第2章 Spark集群的安装与部署 Spark的安装简便,用户可以在官网上下载到最新的软件包. Spark最早是为了在Linux平台上使用而开发的,在生产环境中也是部署在Linux平台上,但是Spark在UNIX.Windwos和Mac OS X系统上也运行良好.不过,在Windows上运行Spark稍显复杂,必须先安装Cygwin以模拟Linux环境,才能安装Spark. 由于Spark主要使用HDFS充当持久化层,所以完整地使用Spark需要预先安装Hadoop.下面介绍Spark集群的安装

Spark集群安装和使用

本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法. 安装环境如下: 操作系统:CentOs 6.5 Hadoop 版本:cdh-5.4.0 Spark 版本:cdh5-1.3.0_5.4.0 关于 yum 源的配置以及 Hadoop 集群的安装,请参考 使用yum安装CDH Hadoop集群. 1. 安装 首先查看 Spark 相关的包有哪些: $ yum list |grep spark spark-core.noarch 1.3.0

Spark集群搭建

Spark集群搭建 一.环境说明1.机器:3台虚机(hadoop01/hadoop02/hadoop03)2.Linux版本:CentOS 6.53.JDK版本:1.84.Hadoop版本:hadoop-2.5.25.Spark版本:Spark-1.3.16.Scala版本:scala-2.10.6二.安装步骤1.安装Hadoop,这里不做具体讲解172.16.1.156 hadoop01172.16.1.157 hadoop02172.16.1.158 hadoop032.下载Spark如果是

消息中间件kafka+zookeeper集群部署、测试与应用

业务系统中,通常会遇到这些场景:A系统向B系统主动推送一个处理请求:A系统向B系统发送一个业务处理请求,因为某些原因(断电.宕机..),B业务系统挂机了,A系统发起的请求处理失败:前端应用并发量过大,部分请求丢失或后端业务系统卡死....这个时候,消息中间件就派上用场了--提升系统稳定性.可用性.可扩展性. 一.消息中间件消息队列技术是分布式应用间交换信息的一种技术.消息队列可驻留在内存或磁盘上,队列存储消息直到它们被应用程序读走.通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置.

方法-应用系统集群部署架构设计(监听、通知)

问题描述 应用系统集群部署架构设计(监听.通知) A类有个a方法,B类有个b方法,当外部调用a方法时,通知b方法执行,如果b方法在执行就不通知其执行,让其继续执行,外部一直在调用a方法,但b方法一直只有一个线程在执行,应用系统是集群部署,不管部署多少应用,b还是只用一个线程在运行,或在1号服务器或在2号服务器或在N号服务器运行.这样的场景怎么去设计怎么实现,请各位大虾提供一些思路或方法,谢谢. 再描述一下场景:应用集群部署,但是公用同一个数据库,系统向外抛一个接口,调用方下行数据,调用方有多个,

测试spark集群入门级wordcount出错,求大神们帮忙解决啊

问题描述 测试spark集群入门级wordcount出错,求大神们帮忙解决啊 Created by jyq on 10/14/15.*/就这么点源代码 import org.apache.spark.{SparkConfSparkContextSparkFiles} object WordCount { def main(args: Array[String]):Unit= { val conf =new SparkConf().setAppName(""WordCount"