hdfs-cdh hadoop mapreduce 运行时的问题:(有时候会出现,有时候不出现,急求大神帮助)

问题描述

cdh hadoop mapreduce 运行时的问题:(有时候会出现,有时候不出现,急求大神帮助)

15/10/08 08:49:13 INFO mapreduce.Job: Job job_1419225162729_18465 running in uber mode : false
15/10/08 08:49:13 INFO mapreduce.Job: map 0% reduce 0%
15/10/08 08:49:13 INFO mapreduce.Job: Job job_1419225162729_18465 failed with state FAILED due to: Application application_1419225162729_18465 failed 1 times due to AM Container for appattempt_1419225162729_18465_000001 exited with exitCode: -1000 due to: java.io.IOException: Not able to initialize app-log directories in any of the configured local directories for app application_1419225162729_18465
at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.createAppLogDirs(DefaultContainerExecutor.java:459)
at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.startLocalizer(DefaultContainerExecutor.java:91)
at org.apache.hadoop.yarn.server.nodemanager.containermanager.localizer.ResourceLocalizationService$LocalizerRunner.run(ResourceLocalizationService.java:861)

.Failing this attempt.. Failing the application.
15/10/08 08:49:13 INFO mapreduce.Job: Counters: 0
Moved: 'hdfs://oiddhnode02:8020/user/nmger/worktemp/2015100408' to trash at: hdfs://oiddhnode02:8020/user/nmger/.Trash/Current

解决方案

这个问题没人回答?唉,,幸亏我自己解决了,领导一直在问,晚上回家还在想这问题呢。其实从问题的报错显示是不能创建任务日志目录,且是local directories ,那么如果集群之前一直正常,且执行此任务也正常,同时出错之前没人改过集群的配置什么,那么就是集群本身由于长时间不维护出现的问题
,开始的时候查看yarn-site.xml的配置,发现了如下两个参数的配置

yarn.nodemanager.log-dirs
/var/log/hadoop-yarn/container

yarn.nodemanager.remote-app-log-dir
/tmp/logs

上面两个参数在集群机器上对比发现,第一个是在机器目录上创建的日志目录,第二个是在hdfs上存在的任务日志目录,最开始,是把container里面的日志压缩备份,删除了一些,但是不起作用,有又把hdfs tmp上的日志删除了一下,还是不起作用,。。。偶然间发现,集群机器有两台机器的磁盘一个分区已经占用了百分之百了,利用 df -h查看linux的磁盘情况,会不会是这个问题呢?于是du -sh * 查找到百分百的分区占用最大的文件,虽然不是container目录,不过,在/var/log/hadoop-yarn/下,的yarn-yarn-nodemanager-oiddhnode02.out 这个类似名字的文件,一看达到四十多G,我擦,,,,看看文件内容,其实跟/tmp/log 里日志文件内容一样,于是果断把它删除了,注意,linux大文件的删除,删除后可能删除进程还在,那么在df -h 的时候并不会更新硬盘的情况,删除完,用lsof |grep delete  查看,如果还存在删除的进程,就把它kill掉,这样再du -h;删除完之后要在原目录创建与已删除大文件同名的文件,其实这个步骤中,我除了删除几台机器中的大日志文件外,还把hdfs 上/tmp/log 给清理了一下,再之后重新跑任务没有那个问题出现了,我感觉上还是跟大日志文件的删除有关,因为原理上linux对于特别大的文件可能不能写入了,且沾满了硬盘的分区
时间: 2024-09-20 19:47:10

hdfs-cdh hadoop mapreduce 运行时的问题:(有时候会出现,有时候不出现,急求大神帮助)的相关文章

struct-自己编的c语言建立二叉树的代码,运行时出错了,自己找不到错误,求大神帮忙,指点,急.

问题描述 自己编的c语言建立二叉树的代码,运行时出错了,自己找不到错误,求大神帮忙,指点,急. 自己编的c语言建立二叉树的代码,运行时出错了,自己找不到错误,求大神帮忙,指点,急. #include #include typedef struct tnode Tnode; struct tnode { Tnode *left; Tnode *right; int data; }; Tnode *new_tnode(int data) { Tnode *new = malloc(sizeof(Tn

c++ 编程问题-程序运行时总是出现这个Process terminated with status -1073741510,求大神来帮帮忙

问题描述 程序运行时总是出现这个Process terminated with status -1073741510,求大神来帮帮忙 safearray.h文件 #ifndef SAFEARRAY_H #define SAFEARRAY_H #include template class safearray { private: T* storage; int capacity; public: safearray() : storage(NULL), capacity(0) {} // def

新手求助!!!vc6.0 MFC程序编译通过却运行不了,F5输出错误一大堆!!求大神

问题描述 新手求助!!!vc6.0 MFC程序编译通过却运行不了,F5输出错误一大堆!!求大神 Loaded 'ntdll.dll', no matching symbolic information found. Loaded 'C:WindowsSysWOW64kernel32.dll', no matching symbolic information found. Loaded 'C:WindowsSysWOW64KernelBase.dll', no matching symbolic

内存溢出 tomcat-项目运行一段时间后网页就打不开了,有时候没有报错,有时候会报下面的错误,求大神指教

问题描述 项目运行一段时间后网页就打不开了,有时候没有报错,有时候会报下面的错误,求大神指教 不知道是不是跟内存溢出有关系 解决方案 这应该不是内存溢出问题,报的是空指针,有可能的是某些请求参数时间过长失效 解决方案二: 空指针异常 看一下是否有空指针 如果没有 重启服务器 解决方案三: 空指针异常 看一下是否有空指针 如果没有 重启服务器

程序运行就闪退,log日志报错如下,求大神支招

问题描述 程序运行就闪退,log日志报错如下,求大神支招 05-24 18:28:21.920 32733-32733/com.example.administrator.myapplication W/dalvikvm﹕ threadid=1: thread exiting with uncaught exception (group=0x415ebc38) 解决方案 这信息也太少了... 解决方案二: 0.0,稍等 05-24 18:35:47.070 843-1911/? W/Temper

java-怎样可以做到再添加时已经添加了的不会消失,,求大神帮忙啊

问题描述 怎样可以做到再添加时已经添加了的不会消失,,求大神帮忙啊 public partial class Form5 : Form { static string str; static int i; public Form5() { InitializeComponent(); } public void Mn(string s) { str = s; } private void Form5_Load(object sender, EventArgs e) { /* i = listVi

JSP刷新时加载VB控件,浏览器报崩溃,求大神指点.....

问题描述 有个JSP页面,每次刷新时加载vb写的硬盘录像机控件,有时会报浏览器崩溃,求大神指点...

在运行的时候遇到了一个debug,作为初学者,求大神

问题描述 之前有在QQ讨论群问过人,但是还是没有很懂,求大神细说现在知道是没有把数据传进去,他们说是用imageList1.Images.Add();但是具体怎么做还是一头雾水,求大神啊,必要的时候,可以远程. 解决方案 解决方案二:你的imageList是空的才会有这个错误解决方案三:还不够清晰啊,imageList1里没有图像,你访问它里面的内容,当然报错了,你先要把图像加到imageList1中去啊解决方案四:楼主是否进行了非正常操作,这段代码看似是系统自动生成的,楼主改过了?

创建控件时出错 - rpInfoTypeList服务器标记的格式不正确。求大神帮忙解决一下

问题描述 <asp:RepeaterID="rpInfoTypeList"runat="server"><HeaderTemplate><table><trstyle="background-color:#009AFF;height:30px;"><tdstyle="width:100px;">序号</td><tdstyle="width: