spark yarn-cluster

问题描述

INFOClient:Applicationreportforapplication_1461842099698_0002(state:ACCEPTED)16/04/2904:34:55INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1461918894177finalstatus:UNDEFINEDtrackingURL:http://HPserver01:8088/proxy/application_1461842099698_0002/user:zl16/04/2904:34:56INFOClient:Applicationreportforapplication_1461842099698_0002(state:ACCEPTED)16/04/2904:34:57INFOClient:Applicationreportforapplication_1461842099698_0002(state:ACCEPTED)16/04/2904:34:58INFOClient:Applicationreportforapplication_1461842099698_0002(state:ACCEPTED)大神门,小弟我在利用yarn-cluster模式运行程序的时候,出现了上述的问题,已经浪费了很久的时间了,请大神大腿

解决方案

解决方案二:
你没有指定yarn的masterIP和Port或者你的Hadoop集群没有启动或正确配置

时间: 2024-09-21 21:18:39

spark yarn-cluster的相关文章

Spark Standalone Cluster

zookeeper spark

从源码角度看Spark on yarn client & cluster模式的本质区别

首先区分下AppMaster和Driver,任何一个yarn上运行的任务都必须有一个AppMaster,而任何一个Spark任务都会有一个Driver,Driver就是运行SparkContext(它会构建TaskScheduler和DAGScheduler)的进程,当然在Driver上你也可以做很多非Spark的事情,这些事情只会在Driver上面执行,而由SparkContext上牵引出来的代码则会由DAGScheduler分析,并形成Job和Stage交由TaskScheduler,再由T

Spark On YARN内存分配

本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解"为什么会这样,为什么会那样". 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式.yarn-cluster模式. 当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行.Spark可以使得多个Tasks在同一个容器里面运行. 下图是y

《Spark官方文档》在YARN上运行Spark

Spark在 0.6.0版本后支持在YARN(hadoop NextGen)上运行,并且在后续版本中不断改进. 在YARN上启动Spark 首先,确认 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop集群的配置文件.这些配置用于操作HDFS和连接YARN资源管理器.在这个目录下的这些配置文件将被分发到YARN集群中,因此应用所使用的容器能够使用相同的配置.如果配置中的java系统参数或环境变量没有被YARN所管理,就必须设置在Spark应用的配置中(驱动.执行器

Apache Spark源码走读(三)Spark on Yarn &Spark源码编译 &在YARN上运行SparkPi

<一>Spark on Yarn 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配. Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部署,本文将就Spark如何实现在Yarn平台上的部署作比较详尽的分析. Spark Standalone部署模式回顾 上图是Spark Standalone Cluster中计算模块的简要示意,从

《Spark 官方文档》在YARN上运行Spark

在YARN上运行Spark 对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的,后续的版本也一直持续在改进. 在YARN上启动 首先确保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 变量指向一个包含Hadoop集群客户端配置文件的目录.这些配置用于读写HDFS和连接YARN资源管理器(ResourceManager).这些配置应该发布到YARN集群上所有的节点,这样所有的YARN容器才能使用同样的配置.如果这些配置引用了Java系统属性或

【Spark Summit East 2017】用Yarn监控Scala和Python Spark工作的动态资源使用情况

本讲义出自Ed Barnes与Ruslan Vaulin在Spark Summit East 2017上的演讲,我们都害怕"失去的任务"和"容器由于超出内存限制被Yarn关闭"的消息在Spark Yarn的应用程序出现的比例增多.甚至在分布式Yarn环境中,回答"应用程序使用了多少内存?"这个问题都是非常棘手的.为观察Spark的重要统计工作,包括executor-by-executor内存和CPU使用,JDK以及pySpark Yarn容器中的

Spark配置参数

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置.例如IP地址.端口等信息 日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它.这些属性可以直接在Spark

Spark技术内幕:Client,Master和Worker 通信源码解析

Spark的Cluster Manager可以有几种部署模式: Standlone Mesos YARN EC2 Local 在向集群提交计算任务后,系统的运算模型就是Driver Program定义的SparkContext向APP Master提交,有APP Master进行计算资源的调度并最终完成计算.具体阐述可以阅读<Spark:大数据的电花火石! >. 那么Standalone模式下,Client,Master和Worker是如何进行通信,注册并开启服务的呢? 1. node之间的R

Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming.Spark SQL.MLlib.GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑.这也得益于Scala编程语言的简洁性.这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算. 我们的应用场景是分析用户使用手机App的行为,描述如下所示: 手机客户端会收集用户的行为事件(我们以点击