《Hadoop与大数据挖掘》——2.3 Hadoop集群命令

2.3 Hadoop集群命令

一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传、下载、删除,文件夹新建、删除、拷贝等;又或者提交MapReduce任务并执行、查看MapReduce任务执行状态等。那么Hadoop集群包含的相关命令有哪些呢?

大多数Hadoop集群的相关命令类别如表2-3所示。



下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础。

2.3.1 HDFS常用命令hdfs dfs

在讲解这个命令前,先对hdfs dfs、hadoop fs、hadoop dfs这3个命令进行区分。

该命令的操作在代码清单2-18中列出。



其中斜体加粗的命令是比较常用的,一般可以根据命令名称推断出该命令的功能及用法。同时,也可以使用-usage命令查看某个具体名,如代码清单2-19所示。

这里,针对常用的命令做简单介绍,如表2-4所示。

2.3.2 动手实践:hdfs dfs命令实战

在了解了一些Hadoop HDFS相关命令后,即可进行实验,加深对该类命令的认识。

实验步骤如下:

1)root账号登录master机器终端;

2)上传/root/anaconda-ks.cfg 文件到HDFS的/user/root/目录下;

3)复制或移动HDFS中/user/root/anaconda-ks.cfg 到/user/root/tmp/目录下;

4)下载HDFS中的/user/root/tmp/anaconda-ks.cfg 文件到linux /tmp目录下;

5)删除/user/root/tmp目录。

思考:

1)如果使用的不是root账号登录,那么可以操作吗?如何操作?

2)删除/user/root/tmp目录可以使用哪些命令?不同命令有什么区别?

2.3.3 MapReduce常用命令mapred job

MapReduce常用命令就是job相关命令,该命令相关参数及描述如代码清单2-20所示。

其中比较常用的描述如下。

2.3.4 YARN常用命令yarn jar

YARN常用命令就是yarn jar命令,即提交一个MapReduce任务的命令。使用该命令可以直接运行一个MapReduce任务。该命令描述如代码清单2-21所示。

从上面的描述中可以看出,其实调用yarn jar命令还是比较简单的,只需要给出要执行的jar文件路径、可选的主类,以及主类对应的输入参数即可。

2.3.5 动手实践:运行MapReduce任务

实验步骤如下:

1)上传/root/anaconda-ks.cfg文件到HDFS文件系统/user/root目录;

2)使用yarn jar的方式提交任务,其中,

3)查看输出运行结果;

4)使用mapred job命令查看任务状态及对应日志输出;

5)再次执行任务,查看输出信息;

6)产生一个大数据文件,上传到HDFS,使用该大数据文件执行单词计数MapReduce任务,在执行到一半后,使用mapred job的kill命令,杀死该任务,查看相关输出信息。

思考:

1)执行第5步的时候会报错吗?报什么错?怎么解决?

2)可以在Hadoop IDE中直接提交Job吗?如果可以怎么做?如果不可以,为什么?

时间: 2024-08-03 07:08:54

《Hadoop与大数据挖掘》——2.3 Hadoop集群命令的相关文章

《Hadoop与大数据挖掘》一2.3 Hadoop集群命令

2.3 Hadoop集群命令 一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce任务执行状态等.那么Hadoop集群包含的相关命令有哪些呢? 大多数Hadoop集群的相关命令类别如表2-3所示. 下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础.

《Hadoop与大数据挖掘》一导读

前 言 为什么要写这本书 最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

《Hadoop与大数据挖掘》一2.7 本章小结

2.7 本章小结 本章首先介绍了Hadoop的基本概念.原理以及Hadoop生态系统各个框架.接着,介绍了Hadoop的安装配置以及开发环境IDE配置.在此基础上介绍了Hadoop常用的集群命令.Hadoop MapReduce编程开发原理,针对MapReduce编程开发,详细介绍了Map-Reduce原理.单词计数源码分析,结合源码分析了MapReduce原理.在本章的最后两个小节,分别介绍了数据挖掘中的经典算法:K-Means算法.TF-IDF算法,并针对其Hadoop MapReduce实

《Hadoop与大数据挖掘》——2.7 本章小结

2.7 本章小结 本章首先介绍了Hadoop的基本概念.原理以及Hadoop生态系统各个框架.接着,介绍了Hadoop的安装配置以及开发环境IDE配置.在此基础上介绍了Hadoop常用的集群命令.Hadoop MapReduce编程开发原理,针对MapReduce编程开发,详细介绍了Map-Reduce原理.单词计数源码分析,结合源码分析了MapReduce原理.在本章的最后两个小节,分别介绍了数据挖掘中的经典算法:K-Means算法.TF-IDF算法,并针对其Hadoop MapReduce实

颠覆大数据分析之Mesos:集群调度及管理系统

颠覆大数据分析之Mesos:集群调度及管理系统 译者:黄经业    购书 正如前面"Mesos:动机"一节中所述,Mesos的主要目标就是去帮助管理不同框架(或者应用栈)间的集群资源.比如说,有一个业务需要在同一个物理集群上同时运行Hadoop,Storm及Spark.这种情况下,现有的调度器是无法完成跨框架间的如此细粒度的资源共享的.Hadoop的YARN调度器是一个中央调度器,它可以允许多个框架运行在一个集群里.但是,要使用框架特定的算法或者调度策略的话就变得很难了,因为多个框架间

玩转大数据-如何搭建redis集群

在企业应用中,对于数据的固化一般采用数据库,但是数据库的吞吐量还是存在一定的问题的,在高并发高吞吐要求时,一般会直接导致数据库的宕机或者死锁,目前对于这个问题的架构是在数据库前边在缓存池,redis就是这么一款产品. 对于redis的介绍,去百度吧,它应该被广泛运用在各个项目中,我们来看如何搭建一个redis集群,这里的集群是个真分布式集群哦. 首先,我们需要下载redis源代码,然后进行编译,以下命令在linux下执行: wget http://download.redis.io/redis-

《Hadoop与大数据挖掘》一2.2.3 集群启动关闭与监控

2.2.3 集群启动关闭与监控 启动集群,只需要在master节点(NameNode服务所在节点)直接进入Hadoop安装目录,分别执行如代码清单2-16所示的命令即可. 代码清单2-16 启动Hadoop集群 cd $HADOOP_HOME // 进入Hadoop安装目录 bin/start-dfs.sh // 启动HDFS相关服务 bin/start-yarn.sh // 启动YARN相关服务 bin/mr-jobhistory-daemon.sh start historyserver /

《Hadoop与大数据挖掘》一2.2.4 动手实践:一键式Hadoop集群启动关闭

2.2.4 动手实践:一键式Hadoop集群启动关闭 在使用Hadoop的过程中,如果每次启动Hadoop集群都需要分别执行3次命令才能启动集群,那么每次集群启动或关闭都将很繁琐.为了减少这种操作,可以编写一个脚本来控制Hadoop集群的启动与关闭,所以本实验就是完成这个功能. 实验步骤: 1)学习Linux shell命令相关代码: 2)了解Hadoop集群启动关闭流程: 3)编写集群启动关闭shell脚本: 4)测试运行.

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机