《Hadoop MapReduce实战手册》一1.7 HDFS的基本命令行文件操作

1.7 HDFS的基本命令行文件操作

Hadoop MapReduce实战手册
HDFS是一个分布式的文件系统,就像一个Unix文件系统一样,它允许用户使用shell命令操纵文件系统。本节将说明如何使用HDFS的基本命令行来执行这些操作。

值得注意的是,每一条HDFS命令都有一个与之一一对应的Unix命令。例如,下面的命令:

>hadoopdfs –cat /data/foo.txt

该命令用于读取/data/foo.txt文件,并把它打印到屏幕上,就像Unix系统的cat命令一样。

准备工作
通过以下安装HDFS的攻略,启动HDFS服务器。

操作步骤

  1. 将工作目录跳转到HADOOP_HOME。
  2. 运行下面的命令来新建一个名为/test的目录:
>bin/hadoopdfs -mkdir /test
  1. HDFS文件系统的根目录为/,就像Unix文件系统的根目录一样。运行以下命令可以列出HDFS根目录的内容:
>bin/hadoopdfs -ls /
  1. 运行下面的命令将本地readme文件复制到/test目录下:
>bin/hadoopdfs -put README.txt /test
  1. 运行下面的命令列出/test目录的内容:
>bin/hadoopdfs -ls /test

Found 1 items
-rw-r--r-- 1 srinathsupergroup   1366 2012-04-10 07:06 /
test/README.txt
  1. 运行以下命令将/test/README.txt文件复制到本地目录:
>bin/hadoopdfs -get /test/README.txt README-NEW.txt

工作原理
当命令发出后,客户端将代表用户与HDFS NameNode通信,并执行相关操作。通常,我们使用以/开头的路径来引用文件或文件夹,如/data,客户端将根据HADOOP_HOME/conf目录中的配置项来选择NameNode。

然而,如果需要的话,我们可以使用一个完全限定路径来强制客户端跟一个特定的NameNode进行通信。例如,hdfs://bar.foo.com:9000/data,会要求客户端与运行在bar.foo.com主机9000端口上的NameNode进行通信。

更多参考
HDFS支持大多数的Unix命令,如cp、mv和chown,它们与上面讨论的命令一样,遵循相同的模式。文档http://hadoop.apache.org/docs/r1.0.3/file_system_shell.html提供了所有支持命令的列表。我们将在本书中通篇使用这些命令。

时间: 2024-11-08 17:11:56

《Hadoop MapReduce实战手册》一1.7 HDFS的基本命令行文件操作的相关文章

《Hadoop MapReduce实战手册》一导读

前 言 Hadoop MapReduce实战手册 本书目标是帮助读者学会处理大型的复杂数据集.本书虽从简单的例子开始,但仍然可以看到深入的内容.这是一本简单的一站式指南,传授如何完成复杂的事情.它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例. 本产品包括在Apache软件基金会(http://www.apache.org/)开发的软件. 本书涵盖的内容 第1章解释了如何以单点模式以及集群模式安装和运行Hadoop. 第2章介绍了一套高级的HDFS操作,在处理大规

《Hadoop MapReduce实战手册》一第1章 搭建Hadoop并在集群中运行

第1章 搭建Hadoop并在集群中运行 Hadoop MapReduce实战手册本章将学习以下内容: 在你的机器上安装Hadoop 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 给WordCountMapReduce程序增加combiner步骤 安装HDFS 使用HDFS监控UI HDFS的基本命令行文件操作 在分布式集群环境中设置Hadoop 在分布式集群环境中运行WordCount程序 使用MapReduce监控UI

《Hadoop MapReduce实战手册》一2.10 挂载HDFS(Fuse-DFS)

2.10 挂载HDFS(Fuse-DFS) Hadoop MapReduce实战手册 Fuse-DFS项目使我们能够在Linux上挂载HDFS(也支持许多其他版本的Unix)作为标准的文件系统.这样做,可以允许任何程序或用户使用类似于传统的文件系统的方式访问HDFS和与HDFS交互. 准备工作 系统中必须安装以下软件: Apache Ant(http://ant.apache.org/): Fuse和fuse开发包.Fuse开发文件可以通过Redhat/Fedora安装fuse-devel RP

《Hadoop MapReduce实战手册》一2.11 在HDFS中合并文件

2.11 在HDFS中合并文件 Hadoop MapReduce实战手册本节将传授如何合并HDFS中的若干文件,以创建一个单独的文件.对于获取有多个输出部分结果的reducer的MapReduce作业的计算结果来说,这招非常有用. 操作步骤HDFS的getMerge命令可以将HDFS中给定路径下的文件,复制到本地文件系统的单个合并后的文件中. >bin/hadoopfs -getmerge /user/foo/demofiles merged.txt 工作原理getmerge命令的语法如下: h

《Hadoop MapReduce实战手册》一2.2 HDFS基准测试

2.2 HDFS基准测试 Hadoop MapReduce实战手册运行基准测试程序,可以很好地验证HDFS集群是否已如预期般正确设置并执行.DFSIO是一个Hadoop自带的基准测试,可以用来分析一个HDFS集群的I/O性能.该部分展示了如何使用DFSIO来对HDFS集群的读取和写入性能进行基准测试. 准备工作在运行这些基准程序之前,必须安装和部署HDFS和MapReduce.导出HADOOP_HOME环境变量,将其指向Hadoop安装根目录: >export HADOOP_HOME = /..

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2.6 设置HDFS块大小 Hadoop MapReduce实战手册HDFS跨集群存储文件时,会把文件切分成粗粒度的.大小固定的块.默认的HDFS块大小为64 MB.数据产品的块大小会影响文件系统操作的性能,如果存储和处理非常大的文件,那么较大的块大小会更高效.数据产品的块大小会影响MapReduce计算的性能,因为Hadoop的默认行为是为输入文件中的每个数据块创建一个map任务. 操作步骤 要使用NameNode的配置文件来设置HDFS的块大小,需要在$HADOOP_HOME/conf/hd

《Hadoop MapReduce实战手册》一第2章 HDFS进阶

第2章 HDFS进阶 Hadoop MapReduce实战手册本章将学习以下内容: HDFS基准测试 添加一个新的DataNode DataNode下架 使用多个磁盘/卷以及限制HDFS的磁盘使用 设置HDFS块大小 设置文件的冗余因子 使用HDFS的Java API 使用HDFS的C API(libhdfs) 挂载HDFS(Fuse-DFS) 在HDFS中合并文件

《Hadoop MapReduce实战手册》一2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况

2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况 Hadoop MapReduce实战手册Hadoop支持为DataNode数据目录指定多个操作系统目录.此功能使我们能够利用多个磁盘/卷来存储DataNode的数据块.Hadoop将尝试在每个目录中存储等量的数据.Hadoop也支持限制HDFS使用的磁盘空间数量. 操作步骤下面的步骤将展示如何添加多个磁盘卷. 在每个卷中创建HDFS的数据存储目录. 在$HADOOP_HOME/conf/hdfs-site.xml中,提供了一个逗号分隔的列表

《Hadoop MapReduce实战手册》一1.6 使用HDFS监控UI

1.6 使用HDFS监控UI Hadoop MapReduce实战手册HDFS包含一个监控Web控制台,用于验证安装和监控HDFS集群.它也可以让用户浏览HDFS文件系统的内容.在本节中,我们将探讨如何访问HDFS监控UI,并验证安装. 准备工作根据前一节所描述的内容,启动HDFS集群. 操作步骤让我们从访问HDFS的Web控制台开始. 使用浏览器访问链接http://MASTER_NODE:50070/,看是否能看到HDFS启动页面.在这里,请将MASTER_NODE替换为运行HDFS Nam