Hadoop2.6.0版本MapReudce示例之WordCount(二)

        继《Hadoop2.6.0版本MapReudce示例之WordCount(一)》之后,我们继续看MapReduce的WordCount示例,看看如何监控作业运行或查看历史记录,以及作业运行时的文件目录及列表。

        1、监控作业运行或查看历史记录

        在WordCount的输出内容中,有这么一句:The url to track the job: http://server2:8088/proxy/application_1459913635503_0004/,这个是追踪作业运行的意思,登录后,可以查看Job整体情况、配置信息Configuration、Map Tasks情况、Reduce Tasks情况、Job计数器Counters、作业历史JobHistory等情况,分别如下图所示:

        1.1、Job整体情况

        Job整体情况包括作业名、提交用户名、作业队列、作业状态、提交时间、开始时间、完成时间、耗时、平均Map耗时、平均Shuffle耗时、平均合并耗时、平均聚合耗时、Map、Reduce任务各自总数及完成数、Map、Reduce任务尝试运行各自总数、失败数、杀死数、成功数等内容。

        1.2、配置信息Configuration

        1.3、Map Tasks情况

        Map Tasks情况包括Map Task的Task名称name、Task状态state、Task整体开始时间Start Time、Task整体完成时间Finish Time、Task整体耗时Elapsed Time、成功运行尝试Successful Attempt开始时间Start Time、成功运行尝试Successful Attempt完成时间Finish Time、成功运行尝试Successful Attempt耗时Elapsed Time等。

        我们知道,MapReduce的Task的每次尝试运行,称为Task Attempt,并且MapReduce有推测执行原理,对于拖后腿的Map Task,会尝试同时运行多个任务运行尝试Attempt,哪个先完成就用哪个,并且,即便没有推测执行原理,任务也很有可能运行失败,为了确保高容错性,对于失败任务还是需要多次尝试运行直到成功的。

        1.4、Reduce Tasks情况

        Reduce Tasks情况

        1.5、Job计数器Counters

        1.6、作业历史JobHistory

        2、作业运行时的文件目录及列表

        MapReduce的作业Job在运行时,会将配置文件、Jar等上传至HDFS指定工作目录,下面我们看下这个工作目录的情况。针对在Yarn上运行的MapReduce作业,Job运行的指定工作目录这样被定义的:

        参数yarn.app.mapreduce.am.staging-dir指定的路径/作业所属用户user/.staging/作业ID

        参数yarn.app.mapreduce.am.staging-dir未配置的话,默认为/tmp/hadoop-yarn/staging;通过上面的作业查看中配置信息得知,本例中参数配置值为/user,如图所示:

        而作业所属用户取自作业参数mapreduce.job.user.name,本例中参数配置值为hdfs,如图所示:

        最后一个作业ID为job_1459913635503_0005(请原谅,不是本例的JobId,因为之前没有专门截图,所以又运行了一次示例,产生了一个新的JobId)

        所以,完整的作业工作目录为/user/hdfs/.staging/job_1459913635503_0005,查看路径下的文件列表,如图所示:

        其中,job.jar是执行job任务的那个jar文件,job.split是分片信息,job.splitmetainfo是分片元数据信息,job.xml是配置信息。

        

时间: 2024-08-18 15:43:41

Hadoop2.6.0版本MapReudce示例之WordCount(二)的相关文章

Hadoop2.6.0版本MapReudce示例之WordCount(一)

        一.准备测试数据         1.在本地Linux系统/var/lib/hadoop-hdfs/file/路径下准备两个文件file1.txt和file2.txt,文件列表及各自内容如下图所示:         2.在hdfs中,准备/input路径,并上传两个文件file1.txt和file2.txt,如下图所示:         二.编写代码,封装Jar包并上传至linux         将代码封装成TestMapReduce.jar,并上传至linux的/usr/lo

虚拟机下linux搭建的hadoop2.7.0,用eclipse运行wordcount程序出现问题

问题描述 hadoop成功搭建,可以运行hadoop自带的wordcount程序.但自己在运行时出现下面的错误.log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.util.Shell).log4j:WARNPleaseinitializethelog4jsystemproperly.log4j:WARNSeehttp://logging.apache.org/log4j/1.2/faq.html#noconfigformor

Hadoop-2.2.0集群安装配置实践

Hadoop 2.x和1.x已经大不相同了,应该说对于存储计算都更加通用了.Hadoop 2.x实现了用来管理集群资源的YARN框架,可以面向任何需要使用基于HDFS存储来计算的需要,当然MapReduce现在已经作为外围的插件式的计算框架,你可以根据需要开发或者选择合适的计算框架.目前,貌似对MapReduce支持还是比较好的,毕竟MapReduce框架已经还算成熟.其他一些基于YARN框架的标准也在开发中. YARN框架的核心是资源的管理和分配调度,它比Hadoop 1.x中的资源分配的粒度

大数据-三台机器能够构建HA的hadoop集群吗 hadoop-2.6.0 64位版本

问题描述 三台机器能够构建HA的hadoop集群吗 hadoop-2.6.0 64位版本 我设计的架构如图,理论上任意一台机器宕机,集群仍然可以正常工作,不知道这样是否可行. 求大神指导. 解决方案 keepalive 常用于HA, 不过你这里的hadoop 是怎么实现的内部我不是很清楚,不过正常HA 可以实现一台宕机立马切换到备用集群. 我测试过keepalive

Seraph 4.0版本以后的新的脚本示例_seraphzone

4.0中,最重要的几大改如下:- 允许数组相互直接赋值,并允许数组成为函数的参数.- 允许在函数中调用后面声明的函数,即函数声明的先后与调用关系无关.使间接递归成为可能.- 允许在定义了函数之后的脚本位置定义全局变量.这样USE子脚本中也可以声明全局变量了,使其功能可以更灵活. 以下分别对这几大改进举例说明允许数组相互直接赋值,并允许数组成为函数的参数. 例1,数组相互直接赋值function maindim arr1[10]arr1[1]=5#将数组arr1整体COPY至arr2arr2=ar

Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误

25.集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 25.1.2服务器准备 本案例使用虚拟机服务器来搭建HADOOP集群,所用软件及版本: ü Vmware 11.

hadoop2.2.0源代码编译

一.环境说明 虚拟软件:VMware Workstation 10 虚拟机配置: RHEL Server release 6.5 (Santiago) 2.6.32-431.el6.x86_64 cpu:4核心,内存:4G,硬盘:50G 二.前提条件: 1:将rhel6.5的iso文件作为yum源 2:hadoop-2.2.0-src.tar.gz 3:安装JDK 1.6.0_43 4:安装并配置apache-maven 3.0.5(apache-maven-3.0.5-bin.tar.gz)

CYQ.Data 数据框架 V3.0 版本 开放源码下载有[CYQ.Blog(秋色园QBlog) 完全开放所有源码]

本次开放源码,长话短说:   1:本次开放CYQ.Data数据框架 V3.0版本,包含QBlog强大的XmlHelper源码,相关更新记录在底部. 2:CYQ.Blog(秋色园QBlog) 重新开放免费下载,加上本次开放的CYQ.Data 组件源码,秋色园QBlog V1.0已完全开放了所有源码. 3:CYQ.Blog(秋色园QBlog) 基本上对个人使用免费,对企业采用宇宙最强武器"攞你命3000". 4:CYQ.Data 数据框架对个人使用也提供了免费获得商业授权的方式,具体详见源

Hadoop2.2.0 的安装和基本配置

Hadoop2.0的架构和1.0完全不一样,在安装配置上和1.0也有很大的不同,譬如配置文件的目录不一样了,还有要对yarn进行配置,这个在1.0是没有的.很多人第一次接触hadoop2.0的时候,会很不适应,而且官方的文档也有些写得不太清楚的地方,也有些错误.笔者在初次安装hadoop2.0的时候,看着官方的文档,中间也出现过很多问题.为了帮助大家很快的部署上hadoop2.0,笔者写了这篇文章.这篇文章主要就是介绍一个hadoop2.0的一个最基本最简单的配置,目的就是尽快的让hadoop2