spark 1.X standalone和on yarn安装配置

安装JDK 1.7以上 Hadoop 2.7.0不支持JDK1.6，Spark 1.5.0开始不支持JDK 1.6

安装Scala 2.10.4

安装 Hadoop 2.x 至少HDFS

spark-env.sh

export JAVA_HOME=

export SCALA_HOME=

export HADOOP_CONF_DIR=/opt/modules/hadoop-2.2.0/etc/hadoop //运行在yarn上必须要指定

export SPARK_MASTER_IP=server1

export SPARK_MASTER_PORT=8888

export SPARK_MASTER_WEBUI_PORT=8080

export SPARK_WORKER_CORES=

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_MEMORY=26g

export SPARK_WORKER_PORT=7078

export SPARK_WORKER_WEBUI_PORT=8081

export SPARK_JAVA_OPTS="-verbose:gc -XX:-PrintGCDetails -XX:PrintGCTimeStamps"

slaves指定worker节点

xx.xx.xx.2
xx.xx.xx.3
xx.xx.xx.4
xx.xx.xx.5

运行spark-submit时默认的属性从spark-defaults.conf文件读取

spark-defaults.conf

spark.master=spark://hadoop-spark.dargon.org:7077

启动集群

start-master.sh
start-salves.sh

spark-shell命令其实也是执行spark-submit命令

spark-submit --help

deploy-mode针对driver program(SparkContext)的client(本地)、cluster(集群)

默认是client的，SparkContext运行在本地，如果改成cluster则SparkContext运行在集群上

hadoop on yarn的部署模式就是cluster，SparkContext运行在Application Master

spark-shell quick-start链接

http://spark.apache.org/docs/latest/quick-start.html

本文出自 “点滴积累” 博客，请务必保留此出处http://tianxingzhe.blog.51cto.com/3390077/1711959

时间： 2024-09-23 01:04:22

spark 1.X standalone和on yarn安装配置的相关文章

YARN的安装配置

本安装在开发实验环境中部署,只涉及到全局资源管理调度系统YARN的安装,HDFS还是第一代,没有部署HDFS Federation和HDFS HA,后续会加上. OS: CentOS Linux release 6.0 (Final) x86_64 部署机器: dev80.hadoop 192.168.7.80 dev81.hadoop 192.168.7.81 dev82.hadoop 192.168.7.82 dev83.hadoop 192.168.7.83 dev80主要作为Resour

Hive on Spark安装配置详解

可进入我的博客查看原文. 简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark.由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比Ma

《Spark 官方文档》在YARN上运行Spark

在YARN上运行Spark 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进. 在YARN上启动首先确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 变量指向一个包含Hadoop集群客户端配置文件的目录.这些配置用于读写HDFS和连接YARN资源管理器(ResourceManager).这些配置应该发布到YARN集群上所有的节点,这样所有的YARN容器才能使用同样的配置.如果这些配置引用了Java系统属性或

Hue安装配置实践

Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的.通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等.很早以前就听说过Hue的便利与强大,一直没能亲自尝试使用,下面先通过官网给出的特性,通过翻译原文简单了解一下Hue所支持的功能特性集合: 默认基于轻量级sq

ES集群安装配置

ElasticSearch是一个开源搜索服务框架,它已经成为搜索解决方案领域的重要成员.ElasticSearch还经常被用作文档数据库,这主要得益于它的分布式特性和实时搜索能力,另外,ElasticSearch支持越来越多的聚合功能,而且和Yarn.Hadoop.Hive.Pig.Spark.Flume等大数据处理框架的兼容性越来越好.我主要是想调研一下看是否能将它用于实时的数据搜索统计.以及实时OLAP的业务场景之上.这里先记录一下ElasticSearch集群的安装配置. ElasticS

CentOS 6.4下安装配置Spark-0.9集群

Spark是一个快速.通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala.Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序. 下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点.无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell环境可以直接输入Scala代码进行数据处理),我们都会觉得比Hadoop MapReduce计算框架要简单得多,而

Shark-0.9.0安装配置运行实践

Shark(Hive on Spark)是UC Lab为Spark设计并开源的一款数据仓库系统,提供了分布式SQL查询引擎,它能够完全兼容Hive.首先,我们通过下面的图,看一下Shark与Hive的关系(http://shark.cs.berkeley.edu/img/shark-hive-integration.png):以前我们使用Hive分析HDFS中数据时,通过将HQL翻译成MapReduce作业(Job)在Hadoop集群上运行:而使用Shark可以像使用Hive一样容易,如HQL.

HBase-0.90.4集群安装配置

HBase是Hadoop数据库,能够实现随机.实时读写你的Big Data,它是Google的Bigtable的开源实现,可以参考Bigtable的论文Bigtable: A Distributed Storage System for Structured.HBase的存储模型可以如下三个词来概括:distributed, versioned, column-oriented.HBase并非只能在HDFS文件系统上使用, 你可以应用在你的本地文件系统上部署HBase实例来存储数据. 准备工作

ZooKeeper-3.3.4集群安装配置

ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务--分布式同步(Distributed Synchronization).命名服务(Naming Service).集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务.ZooKeeper本身可以以Standalone模式安装运行,不过它的长处在于通过分布式ZooKeeper集群(一个Leader,多个Follower),基于一定的策略来保证Z