Spark应用(app jar)发布到Hadoop集群的过程

记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。

1.绝对路径开启集群

(每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format)
我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。

/opt/hadoop/bin/hdfs namenode -format
/opt/hadoop/sbin/start-all.sh
/opt/spark/sbin/start-all.sh

使用jps命令查看集群是否全部正确开启

2.绝对路径关闭集群

/opt/hadoop/sbin/stop-all.sh
/opt/spark/sbin/stop-all.sh

3.Spark业务(app)发布到Hadoop YARN集群方式

这里发布一个spark本身自带的jar发到hadoop集群中(此时hadoop和spark都已开启)

cd /opt/spark
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
lib/spark-examples-1.6.2-hadoop2.6.0.jar \
10

注意spark-examples-1.6.2-hadoop2.6.0.jar,需要根据你的版本来看自带的版本号。

4.log地址(方便查看错误信息)

/opt/hadoop/logs/
/opt/spark/logs/

5.web地址查看(可以直观的查看集群执行情况)

http://localhost:8088/cluster/apps
http://localhost:8080/
通过http://localhost:8088/cluster/apps看到执行成功SUCCEEDED

查看SparkPi运行结果,结果为Pi is roughly 3.140572。数值可能稍有不同。总之成功了!

时间: 2024-10-30 06:51:48

Spark应用(app jar)发布到Hadoop集群的过程的相关文章

手动安装Hadoop集群的过程

最近又安装 Hadoop 集群,由于一些原因,没有使用 Hadoop 管理工具或者自动化安装脚本来安装集群,而是手动一步步的来安装,本篇文章主要是记录我手动安装 Hadoop 集群的过程,给大家做个参考. 这里所说的手动安装,是指一步步的通过脚本来安装集群,并不是使用一键安装脚本或者一些管理界面来安装. 开始之前,还是说明一下环境: 操作系统:CentOs6.4 CDH版本:4.7.0 节点数:4个 在开始之前,你可以看看我以前写的一篇文章 使用yum安装CDH Hadoop集群,因为有些细节已

使用yum源安装CDH Hadoop集群

本文主要是记录使用yum安装CDH Hadoop集群的过程,包括HDFS.Yarn.Hive和HBase.本文使用CDH5.4版本进行安装,故下文中的过程都是针对CDH5.4版本的. 0. 环境说明 系统环境: 操作系统:CentOs 6.6 Hadoop版本:CDH5.4 JDK版本:1.7.0_71 运行用户:root 集群各节点角色规划为: 192.168.56.121 cdh1 NameNode.ResourceManager.HBase.Hive metastore.Impala Ca

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

基于Hadoop集群的大规模分布式深度学习

前言 在过去的十年里,Yahoo一直持续投资建设和扩展Apache Hadoop集群,到目前为止共有超过4万台服务器和600PB数据分布在19个集群上.正如在2015 Hadoop 峰会上介绍的,我们在自己的服务器上开发了可扩展的机器学习算法,用于分类.排序和计算词向量.目前,Hadoop集群已成为Yahoo大规模机器学习的首选平台. 深度学习(Deep Learning, DL)是雅虎很多产品的核心技术需求.在2015 RE.WORK深度学习峰会上,Yahoo Flickr团队(Simon O

《Hadoop集群与安全》一2.2 设置NameNode

2.2 设置NameNode 在本节中,我们将一步一步对NameNode服务进行安装以及基本配置,其中包括高可用方案的构建.网络上许多指导和教程将NameNode高可用方案作为一项高级内容,而我们在最初就将重点放在NameNode高可用方案的设置上.原因是在Hadoop构建中NameNode扮演着重要的角色.从根本上说,NameNode是Hadoop集群中的一块短板.如果没有该项服务,用户就无法访问Hadoop分布式文件系统(HDFS). 我们有多种方法对NameNode高可用方案进行设置.在C

Ubuntu12.04 Server下安装部署Cloudera Hadoop集群

部署环境 OS: Ubuntu12.04 Server Hadoop:CDH3U6 机器列表:namenode 192.168.71.46:datanode 192.168.71.202,192.168.71.203,192.168.71.204 安装Hadoop 添加软件源 /etc/apt/sources.list.d/cloudera-3u6.list 插入 deb  http://192.168.52.100/hadoop maverick-cdh3 contrib deb-src  h

大数据虚拟化零起点(六) 使用CLI创建Apache Hadoop集群

在大数据虚拟化基础运维第五步创建Hadoop集群开始之前,我想先说明,这里我不通过BDE提供的可视化界面来创建集群.原因是,我们之前部署好的vApp包括BDE管理服务器,是通过虚机的方式在运行.此时,它还没能跟vSphereWeb Client进行绑定,从而暂时无法交付可视化管理界面.在之后的博客文章里,我将介绍如何交付可视化界面. 但大家不要担心,BDE管理服务器自身已经提供了完备的对外服务接口(RestAPI),用户只需通过命令行(CLI)的方法操控它,就能开始对Hadoop集群进行快速部署

Hadoop集群运行JNI程序

  要在Hadoop集群运行上运行JNI程序,首先要在单机上调试程序直到可以正确运行JNI程序,之后移植到Hadoop集群就是水到渠成的事情. Hadoop运行程序的方式是通过jar包,所以我们需要将所有的class文件打包成jar包.在打包的过程中,无需将动态链接库包含进去. 在集群中运行程序之前,Hadoop会首先将jar包传递到所有的节点,然后启动运行.我们可以在这个阶段将动态链接库作为附件和jar包同时传递到所有的节点.方法就是给jar命令指定-files参数.命令如下: hadoop

【Big Data】HADOOP集群的配置(一)

                       Hadoop集群的配置(一) 1.    实验准备 1.1    目的: 在虚拟机环境下,让同学们学会从零开始配置Hadoop-2.2集群,并尝试在真实环境下搭建集群. 1.2    主要内容: 物理机器总共4台,想配置基于物理机的Hadoop集群中包括4个节点: 1 个 Master, 3个 Salve ,节点之间局域网连接,可以相互 ping通.IP的分布如表1所示.             表1        4个节点的IP地址分配及角色 Ma