《Hadoop与大数据挖掘》一2.3.3 MapReduce常用命令mapred job

2.3.3 MapReduce常用命令mapred job

MapReduce常用命令就是job相关命令,该命令相关参数及描述如代码清单2-20所示。

代码清单2-20 mapred job 命令
[root@master hadoop-2.6.0]# bin/mapred job
Usage: CLI <command> <args>
[-submit <job-file>]
[-status <job-id>]
[-counter <job-id> <group-name> <counter-name>]
[-kill <job-id>]
[-set-priority <job-id> <priority>]. Valid values for priorities are: VERY_HIGH HIGH NORMAL LOW VERY_LOW
[-events <job-id> <from-event-#> <#-of-events>]
[-history <jobHistoryFile>]
[-list [all]]
[-list-active-trackers]
[-list-blacklisted-trackers]
[-list-attempt-ids <job-id> <task-type> <task-state>]. Valid values for <task-type> are REDUCE MAP. Valid values for <task-state> are running, completed
[-kill-task <task-attempt-id>]
[-fail-task <task-attempt-id>]
[-logs <job-id> <task-attempt-id>]

其中比较常用的描述如下。

  • -list:列出所有任务信息;
  • -kill:杀死执行任务id的任务,当知道提交的任务有问题的时候,可以运行此命令,直接关闭对应的任务;
  • -logs:查看某个任务的日志,用得相对较少,如果要查看日志,可以首选浏览器查看,其显示格式比较好。
时间: 2024-09-20 00:50:23

《Hadoop与大数据挖掘》一2.3.3 MapReduce常用命令mapred job的相关文章

《Hadoop与大数据挖掘》一导读

前 言 为什么要写这本书 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

《Hadoop与大数据挖掘》——2.3 Hadoop集群命令

2.3 Hadoop集群命令 一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce任务执行状态等.那么Hadoop集群包含的相关命令有哪些呢? 大多数Hadoop集群的相关命令类别如表2-3所示. 下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础. 2.3.1 HDFS常用命令hdfs dfs 在讲解这个命令前,先对hdfs dfs.hadoop fs.hadoop

《Hadoop与大数据挖掘》一1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

《Hadoop与大数据挖掘》一2.3.5 动手实践:运行MapReduce任务

2.3.5 动手实践:运行MapReduce任务 实验步骤如下: 1)上传/root/anaconda-ks.cfg文件到HDFS文件系统/user/root目录: 2)使用yarn jar的方式提交任务,其中, jar文件:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar 主类为:wordcount 输入参数:/user/root/anaconda-ks.cfg 输出参数:/user/root/wc_

《Hadoop与大数据挖掘》——1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

《Hadoop与大数据挖掘》一2.3.1 HDFS常用命令hdfs dfs

2.3.1 HDFS常用命令hdfs dfs 在讲解这个命令前,先对hdfs dfs.hadoop fs.hadoop dfs这3个命令进行区分. hadoop fs:通用的文件系统命令,针对任何系统,比如本地文件.HDFS文件.HFTP文件.S3文件系统等. hadoop dfs:特定针对HDFS的文件系统的相关操作,但是已经不推荐使用. hdfs dfs:与hadoop dfs类似,同样是针对HDFS文件系统的操作,官方推荐使用. 该命令的操作在代码清单2-18中列出. 代码清单2-18 h

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

《Hadoop与大数据挖掘》一2.1 Hadoop概述

2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机的计算机,无论是硬盘存储.网络IO.计算CPU还是内存都是非常有限的.针对这种情况,Hadoop应运而生. 那么,Hadoop是什么呢?我们可以很容易在一些比较权威的网站上找到它的定义,例如:Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情况下开发分布式程序,

《Hadoop与大数据挖掘》一1.3 本章小结

1.3 本章小结 通过本章的介绍,相信大家对大数据有了一个比较感性的认识,那接下来学习什么呢? 接下来的内容就是大数据技术涉及的相关技术.在本书中,大数据技术仅指软件层面,比如使用Hadoop生态圈软件等,而非硬件平台.这里的硬件平台主要指的是把所有硬件资源整合,使其虚拟化一个资源池的概念,涉及的技术有OpenStack.亚马逊云平台.阿里云平台等. 在后面的章节中,主要介绍Hadoop生态圈的相关技术,如HDFS.YARN.MapReduce.HBase.Hive.Pig.Spark.Oozi