Hadoop日志到底存在哪里?

  初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经 验。然而,对于hadoop而言,当遇到错误时,">第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。

  Hadoop MapReduce日志分为两部分,一部分是服务日志,一部分是作业日志,具体介绍如下:

  1. Hadoop 1.x版本

  Hadoop 1.x中MapReduce的服务日志包括JobTracker日志和各个TaskTracker日志,他们的日志位置如下:

  JobTracker:在JobTracker安装节点上,默认位置是

  ${hadoop.log.dir}/logs/*-jobtracker-*.log,该文件每天生成一个,旧的日志后缀是日期,当天的日志文件 后缀是“.log”,其中${hadoop.log.dir}默认值是hadoop安装目录,即${HADOOP_HOME}。

  TaskTracker:在各个TaskTracker安装节点上,默认位置是

  $HADOOP_HOME/logs/*-tasktracker-*.log,该文件每天生成一个,旧的日志后面会跟一个日志,当天的日志文件后缀是“.log”

  作业日志包括jobhistory日志和task日志两部分,其中,jobhistory日志是作业运行日志,包括作业启动时间、结束时间,每个任 务的启动时间、结束时间,各种counter信息等,用户可以从这个日志中解析出作业运行的各种信息,是非常有价值的信息。默认存放位置是 JobTracker所在节点的${hadoop.log.dir}/history目录下,可通过参数 hadoop.job.history.location配置。每个task日志存放在task运行节点上,存放位置 是${hadoop.log.dir}/userlogs//目录下,每个task包含 三个日志文件,分别是stdout、stderr和syslog,其中,stdout是通过标准输出打印出来的日志,比如 System.out.println,注意,程序中通过标准输出打印的日志并不会直接显示在终端上,而是保存在这个文件中,syslog是通过log4j打印的日志,通常这个日志中包含的有用信息最多,也是错误调试中最关键的参考日志。

  2. Hadoop 2.x版本

  Hadoop 2.x中YARN系统的服务日志包括ResourceManager日志和各个NodeManager日志,他们的日志位置如下:

  ResourceManager日志存放位置是Hadoop安装目录下的logs目录下的yarn-*-resourcemanager-*.log

  NodeManager日志存放位置是各个NodeManager节点上hadoop安装目录下的logs目录下的yarn-*-nodemanager-*.log

  应用程序日志包括jobhistory日志和Container日志,其中,jobhistory日志是应用程序运行日志,包括应用程序启动时间、结束时间,每个任务的启动时间、结束时间,各种counter信息等。

  Container日志包含ApplicationMaster日志和普通Task日志,它们均存放在Hadoop安装目录下的userlogs目 录中的application_xxx目录下,其中ApplicationMaster日志目录名称为container_xxx_000001,普通 task日志目录名称则为container_xxx_000002,container_xxx_000003,….,同Hadoop 1.x一样,每个目录下包含三个日志文件:stdout、stderr和syslog,且具体含义是一样的。

  3. 总结

  Hadoop日志是用户定位问题的最重要渠道,对于初学者而言,往往意识不到这一点,或者即使意识到这一点,也找不到日志存放位置,希望本文对初学者有帮助。

  原文链接:http://dongxicheng.org/mapreduce-nextgen/hadoop-logs-placement/

时间: 2024-11-12 17:42:34

Hadoop日志到底存在哪里?的相关文章

汪振平:基于Hadoop日志交易平台的架构及挑战

上海宝信高级工程师汪振平从金融行业入手,从背景.需求与目标.问题.系统架构及其它Hadoop相关知识5个方面对基于Hadoop的日志 交易平台进行深度分享: 背景 使用场景:信用卡消费的延时.交易失败和失败的原因及类型.不规范交易机构和商户的 寻找与产生原因. 数据特征:在数据量上,每天近3亿笔交易日志:在数据状态上,目前仅存储拟合后的交易,对原始交易日志不可用. 需求与目标:交易日志的秒级查询.交易失败分析.不合规交易分析.用户自助分析.与其它数据结合,找出交易失败原因及分析报告.报表. 打造

Hadoop+数据仓库到底是梦幻组合还是命中的宿敌?

想一想数据管理世界中的那个伟大的存在–数据仓库吧.在过去的二十年中,尽管其他的系统和软件在许许多多的迭代.变革中演进,甚至完全被新模型所抛弃,数据仓库这个老骨干却安然屹立.她可能会偷偷地给自己的面颊,皱纹整容,也可能会激起一些不那么令人深刻的模仿,但是没有什么能长期的吸引她的注意力. 直到现在.自从Hadoop出现在舞台上之后,一直有人嘀咕说,这个闪亮的新星正在为一些最好的数据管理角色提供服务–这些角色就是,在几年前,数据仓库已稳操胜券. 但是现在真的到了数据仓库要退休的时候了吗?Hadoop甚

hadoop 日志处理-用mapredue处理网络日志的问题

问题描述 用mapredue处理网络日志的问题 这是我的原始网络日志数据 172.22.49.45 [08/Sep/2015:**00**:27:17 +0800] "GET /tour/product/query HTTP/1.1" GET 200 4424 3 172.22.49.45 [08/Sep/2015:**00**:27:17 +0800] "GET /tour/product/query HTTP/1.1" GET 200 100 2 . . . 1

一步一步学习大数据:Hadoop生态系统与场景

Hadoop概要 到底是业务推动了技术的发展,还是技术推动了业务的发展,这个话题放在什么时候都会惹来一些争议. 随着互联网以及物联网的蓬勃发展,我们进入了大数据时代.IDC预测,到2020年,全球会有44ZB的数据量.传统存储和技术架构无法满足需求.在2013年出版的<大数据时代>一书中,定义了大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(低价值密度).Veracity(真实性). 当我们把时间往回看10年,来到了2003年,这一年Goo

使用事务日志解决SQL Server的4个常见故障

当系统出现故障时,只要存在数据日志那么就可以利用它来恢复数据解决数据库故障.作为SQL Server数据库管理员,了解数据日志文件的作用,以及如何利用它来解决一些数据库的常见故障,这非常重要.既然事务日志这么重要,那么他到底可以用来做什么事情呢?口说无凭,笔者这里就跟大家说说事务日志到底可以用来解决什么故障. 故障一:服务器意外关闭造成的损失 俗话说,天又不测风云.数据库服务器如果因为突然断电或者其他一些原因意外当机时,再重新启动服务器后会出现一些数据的损失.这主要是因为数据库中的数据发生更改后

thread-【凑足10个字】求前辈帮忙看看日志~~

问题描述 [凑足10个字]求前辈帮忙看看日志~~ 这是我学习<第一行代码>码的一个天气应用,其他代码太多,不好上传,只好截图日志,请前辈们帮忙看看错误是在哪儿,这日志到底是要说啥~~拜谢~~ 解决方案 从日志上看好像你的应用是 com.coolweather里面用到了Http request/response,Android用单独的线程处理http连接. 在处理这个Http request/response时,com.coolweather.app.util.Utility.handlePro

Hadoop开启、关闭调试信息方法

Hadoop开启关闭调试信息   开启:export HADOOP_ROOT_LOGGER=DEBUG,console 关闭:export HADOOP_ROOT_LOGGER=INFO,console 实时查看和修改Hadoop日志级别 Hadoop的日志界面可以通过Hadoop命令和Web界面来修改. Hadoop命令格式: hadoop daemonlog -getlevel <host:port> <name> hadoop daemonlog --setlevel <

《日志管理与分析权威指南》一导读

前 言 欢迎阅读本书.本书的目标是向信息技术(IT)专业人士提供理解和处理日志数据的入门知识.各种形式的日志数据是由许多类型的系统生成的.如何处理和分析日志数据是长期存在的一个问题.本书介绍能够帮助你分析日志数据和寻找恶意活动的技术和工具. 过去,系统管理员审阅日志文件,寻找磁盘错误或者内核问题.现在的系统管理员往往还要兼任安全管理员.更好地理解如何处理安全日志数据的需求从未像今天那么重要.安全性分析人员是IT专家组中负责跟踪日志分析技术的人.许多经验丰富的人曾经在"压力测试"的模式下

《Hadoop集群与安全》一2.2 设置NameNode

2.2 设置NameNode 在本节中,我们将一步一步对NameNode服务进行安装以及基本配置,其中包括高可用方案的构建.网络上许多指导和教程将NameNode高可用方案作为一项高级内容,而我们在最初就将重点放在NameNode高可用方案的设置上.原因是在Hadoop构建中NameNode扮演着重要的角色.从根本上说,NameNode是Hadoop集群中的一块短板.如果没有该项服务,用户就无法访问Hadoop分布式文件系统(HDFS). 我们有多种方法对NameNode高可用方案进行设置.在C