《Hadoop与大数据挖掘》——2.3　Hadoop集群命令

2.3　Hadoop集群命令

一般操作Hadoop集群都是使用相关的Hadoop命令，比如文件上传、下载、删除，文件夹新建、删除、拷贝等；又或者提交MapReduce任务并执行、查看MapReduce任务执行状态等。那么Hadoop集群包含的相关命令有哪些呢？

大多数Hadoop集群的相关命令类别如表2-3所示。

下面针对每种集群命令，介绍其中常用的命令，为后面的操作打下基础。

2.3.1　HDFS常用命令hdfs dfs

在讲解这个命令前，先对hdfs dfs、hadoop fs、hadoop dfs这3个命令进行区分。

该命令的操作在代码清单2-18中列出。

其中斜体加粗的命令是比较常用的，一般可以根据命令名称推断出该命令的功能及用法。同时，也可以使用-usage命令查看某个具体名，如代码清单2-19所示。

这里，针对常用的命令做简单介绍，如表2-4所示。

2.3.2　动手实践：hdfs dfs命令实战

在了解了一些Hadoop HDFS相关命令后，即可进行实验，加深对该类命令的认识。

实验步骤如下：

1）root账号登录master机器终端；

2）上传/root/anaconda-ks.cfg 文件到HDFS的/user/root/目录下；

3）复制或移动HDFS中/user/root/anaconda-ks.cfg 到/user/root/tmp/目录下；

4）下载HDFS中的/user/root/tmp/anaconda-ks.cfg 文件到linux /tmp目录下；

5）删除/user/root/tmp目录。

思考：

1）如果使用的不是root账号登录，那么可以操作吗？如何操作？

2）删除/user/root/tmp目录可以使用哪些命令？不同命令有什么区别？

2.3.3　MapReduce常用命令mapred job

MapReduce常用命令就是job相关命令，该命令相关参数及描述如代码清单2-20所示。

其中比较常用的描述如下。

2.3.4　YARN常用命令yarn jar

YARN常用命令就是yarn jar命令，即提交一个MapReduce任务的命令。使用该命令可以直接运行一个MapReduce任务。该命令描述如代码清单2-21所示。

从上面的描述中可以看出，其实调用yarn jar命令还是比较简单的，只需要给出要执行的jar文件路径、可选的主类，以及主类对应的输入参数即可。

2.3.5　动手实践：运行MapReduce任务

实验步骤如下：

1）上传/root/anaconda-ks.cfg文件到HDFS文件系统/user/root目录；

2）使用yarn jar的方式提交任务，其中，

3）查看输出运行结果；

4）使用mapred job命令查看任务状态及对应日志输出；

5）再次执行任务，查看输出信息；

6）产生一个大数据文件，上传到HDFS，使用该大数据文件执行单词计数MapReduce任务，在执行到一半后，使用mapred job的kill命令，杀死该任务，查看相关输出信息。

思考：

1）执行第5步的时候会报错吗？报什么错？怎么解决？

2）可以在Hadoop IDE中直接提交Job吗？如果可以怎么做？如果不可以，为什么？

时间： 2024-08-03 07:08:54

《Hadoop与大数据挖掘》——2.3　Hadoop集群命令的相关文章

《Hadoop与大数据挖掘》一2.3　Hadoop集群命令

2.3 Hadoop集群命令一般操作Hadoop集群都是使用相关的Hadoop命令,比如文件上传.下载.删除,文件夹新建.删除.拷贝等:又或者提交MapReduce任务并执行.查看MapReduce任务执行状态等.那么Hadoop集群包含的相关命令有哪些呢? 大多数Hadoop集群的相关命令类别如表2-3所示. 下面针对每种集群命令,介绍其中常用的命令,为后面的操作打下基础.

前言为什么要写这本书最早提出"大数据"时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来." 早在2012年,大数据(big data)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新.那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当

《Hadoop与大数据挖掘》一2.7　本章小结

2.7 本章小结本章首先介绍了Hadoop的基本概念.原理以及Hadoop生态系统各个框架.接着,介绍了Hadoop的安装配置以及开发环境IDE配置.在此基础上介绍了Hadoop常用的集群命令.Hadoop MapReduce编程开发原理,针对MapReduce编程开发,详细介绍了Map-Reduce原理.单词计数源码分析,结合源码分析了MapReduce原理.在本章的最后两个小节,分别介绍了数据挖掘中的经典算法:K-Means算法.TF-IDF算法,并针对其Hadoop MapReduce实

《Hadoop与大数据挖掘》——2.7　本章小结

颠覆大数据分析之Mesos：集群调度及管理系统

颠覆大数据分析之Mesos:集群调度及管理系统译者:黄经业购书正如前面"Mesos:动机"一节中所述,Mesos的主要目标就是去帮助管理不同框架(或者应用栈)间的集群资源.比如说,有一个业务需要在同一个物理集群上同时运行Hadoop,Storm及Spark.这种情况下,现有的调度器是无法完成跨框架间的如此细粒度的资源共享的.Hadoop的YARN调度器是一个中央调度器,它可以允许多个框架运行在一个集群里.但是,要使用框架特定的算法或者调度策略的话就变得很难了,因为多个框架间

玩转大数据-如何搭建redis集群

在企业应用中,对于数据的固化一般采用数据库,但是数据库的吞吐量还是存在一定的问题的,在高并发高吞吐要求时,一般会直接导致数据库的宕机或者死锁,目前对于这个问题的架构是在数据库前边在缓存池,redis就是这么一款产品. 对于redis的介绍,去百度吧,它应该被广泛运用在各个项目中,我们来看如何搭建一个redis集群,这里的集群是个真分布式集群哦. 首先,我们需要下载redis源代码,然后进行编译,以下命令在linux下执行: wget http://download.redis.io/redis-

《Hadoop与大数据挖掘》一2.2.3　集群启动关闭与监控

2.2.3 集群启动关闭与监控启动集群,只需要在master节点(NameNode服务所在节点)直接进入Hadoop安装目录,分别执行如代码清单2-16所示的命令即可. 代码清单2-16 启动Hadoop集群 cd $HADOOP_HOME // 进入Hadoop安装目录 bin/start-dfs.sh // 启动HDFS相关服务 bin/start-yarn.sh // 启动YARN相关服务 bin/mr-jobhistory-daemon.sh start historyserver /

《Hadoop与大数据挖掘》一2.2.4　动手实践：一键式Hadoop集群启动关闭

2.2.4 动手实践:一键式Hadoop集群启动关闭在使用Hadoop的过程中,如果每次启动Hadoop集群都需要分别执行3次命令才能启动集群,那么每次集群启动或关闭都将很繁琐.为了减少这种操作,可以编写一个脚本来控制Hadoop集群的启动与关闭,所以本实验就是完成这个功能. 实验步骤: 1)学习Linux shell命令相关代码: 2)了解Hadoop集群启动关闭流程: 3)编写集群启动关闭shell脚本: 4)测试运行.

《Hadoop与大数据挖掘》——第2章大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

《Hadoop与大数据挖掘》——2.3 Hadoop集群命令

2.3 Hadoop集群命令

2.3.1 HDFS常用命令hdfs dfs

2.3.2 动手实践：hdfs dfs命令实战

2.3.3 MapReduce常用命令mapred job

2.3.4 YARN常用命令yarn jar

2.3.5 动手实践：运行MapReduce任务

《Hadoop与大数据挖掘》——2.3 Hadoop集群命令的相关文章