《Hadoop MapReduce实战手册》一2.2 HDFS基准测试

2.2 HDFS基准测试

Hadoop MapReduce实战手册
运行基准测试程序，可以很好地验证HDFS集群是否已如预期般正确设置并执行。DFSIO是一个Hadoop自带的基准测试，可以用来分析一个HDFS集群的I/O性能。该部分展示了如何使用DFSIO来对HDFS集群的读取和写入性能进行基准测试。

准备工作
在运行这些基准程序之前，必须安装和部署HDFS和MapReduce。导出HADOOP_HOME环境变量，将其指向Hadoop安装根目录：

>export HADOOP_HOME = /../hadoop-1.0.4

该基准测试程序在$HADOOP_HOME/hadoop-*test.jar文件中。

操作步骤
下列步骤显示了如何运行写入性能基准测试。

在$HADOOP_HOME目录下执行以下命令来测试写入性能的基准程序。-nrFiles参数指定了文件数量，同时-fileSize参数指定了以MB为单位的文件大小。

>bin/hadoop jar $ HADOOP_HOME/hadoop-test- *.JAR TestDFSIO　-write
-nrFiles 5 -CfileSize 100

基准测试程序会将日志写入控制台，同时将日志追加到一个名为TestDFSIO_results.log的文件中。可以使用-resFile参数提供自定义的结果文件名。

下列步骤显示了如何执行测试读性能的基准测试。

读性能基准测试采用步骤1中的写性能基准测试创建的文件。因此，写性能基准测试应该在运行读性能基准测试之前执行，并且写基准测试所创建的文件必须存储在HDFS上，以便读基准测试运行。
执行下面的命令运行读基准测试。读基准测试也会将结果写入控制台，并将其结果追加到一个与写基准测试类似的日志文件。

>bin/ hadoop jar $ HADOOP_HOME/hadoop-test- *.jar TestDFSIO　-read
-nrFiles5 -CfileSize 100

要清理这些基准测试生成的结果文件，可以使用以下命令：

>bin/hadoop jar $HADOOP_HOME hadoop-test-*.jar TestDFSIO –clean

工作原理
DFSIO实际是执行一个MapReduce作业，其中map任务并行读写文件，而reduce任务则被用来收集和归纳性能数据。

更多参考
在运行这些基准测试时，同步观察监控系统，可以帮助你更轻松地识别瓶颈所在。

时间： 2024-11-03 22:01:57

《Hadoop MapReduce实战手册》一2.2 HDFS基准测试的相关文章

《Hadoop MapReduce实战手册》一2.10 挂载HDFS（Fuse-DFS）

2.10 挂载HDFS(Fuse-DFS) Hadoop MapReduce实战手册 Fuse-DFS项目使我们能够在Linux上挂载HDFS(也支持许多其他版本的Unix)作为标准的文件系统.这样做,可以允许任何程序或用户使用类似于传统的文件系统的方式访问HDFS和与HDFS交互. 准备工作系统中必须安装以下软件: Apache Ant(http://ant.apache.org/): Fuse和fuse开发包.Fuse开发文件可以通过Redhat/Fedora安装fuse-devel RP

《Hadoop MapReduce实战手册》一2.11 在HDFS中合并文件

2.11 在HDFS中合并文件 Hadoop MapReduce实战手册本节将传授如何合并HDFS中的若干文件,以创建一个单独的文件.对于获取有多个输出部分结果的reducer的MapReduce作业的计算结果来说,这招非常有用. 操作步骤HDFS的getMerge命令可以将HDFS中给定路径下的文件,复制到本地文件系统的单个合并后的文件中. >bin/hadoopfs -getmerge /user/foo/demofiles merged.txt 工作原理getmerge命令的语法如下: h

《Hadoop MapReduce实战手册》一1.7 HDFS的基本命令行文件操作

1.7 HDFS的基本命令行文件操作 Hadoop MapReduce实战手册HDFS是一个分布式的文件系统,就像一个Unix文件系统一样,它允许用户使用shell命令操纵文件系统.本节将说明如何使用HDFS的基本命令行来执行这些操作. 值得注意的是,每一条HDFS命令都有一个与之一一对应的Unix命令.例如,下面的命令: >hadoopdfs –cat /data/foo.txt 该命令用于读取/data/foo.txt文件,并把它打印到屏幕上,就像Unix系统的cat命令一样. 准备工作通过

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2.6 设置HDFS块大小 Hadoop MapReduce实战手册HDFS跨集群存储文件时,会把文件切分成粗粒度的.大小固定的块.默认的HDFS块大小为64 MB.数据产品的块大小会影响文件系统操作的性能,如果存储和处理非常大的文件,那么较大的块大小会更高效.数据产品的块大小会影响MapReduce计算的性能,因为Hadoop的默认行为是为输入文件中的每个数据块创建一个map任务. 操作步骤要使用NameNode的配置文件来设置HDFS的块大小,需要在$HADOOP_HOME/conf/hd

《Hadoop MapReduce实战手册》一第2章 HDFS进阶

第2章 HDFS进阶 Hadoop MapReduce实战手册本章将学习以下内容: HDFS基准测试添加一个新的DataNode DataNode下架使用多个磁盘/卷以及限制HDFS的磁盘使用设置HDFS块大小设置文件的冗余因子使用HDFS的Java API 使用HDFS的C API(libhdfs) 挂载HDFS(Fuse-DFS) 在HDFS中合并文件

《Hadoop MapReduce实战手册》一2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况

2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况 Hadoop MapReduce实战手册Hadoop支持为DataNode数据目录指定多个操作系统目录.此功能使我们能够利用多个磁盘/卷来存储DataNode的数据块.Hadoop将尝试在每个目录中存储等量的数据.Hadoop也支持限制HDFS使用的磁盘空间数量. 操作步骤下面的步骤将展示如何添加多个磁盘卷. 在每个卷中创建HDFS的数据存储目录. 在$HADOOP_HOME/conf/hdfs-site.xml中,提供了一个逗号分隔的列表

《Hadoop MapReduce实战手册》一1.6 使用HDFS监控UI

1.6 使用HDFS监控UI Hadoop MapReduce实战手册HDFS包含一个监控Web控制台,用于验证安装和监控HDFS集群.它也可以让用户浏览HDFS文件系统的内容.在本节中,我们将探讨如何访问HDFS监控UI,并验证安装. 准备工作根据前一节所描述的内容,启动HDFS集群. 操作步骤让我们从访问HDFS的Web控制台开始. 使用浏览器访问链接http://MASTER_NODE:50070/,看是否能看到HDFS启动页面.在这里,请将MASTER_NODE替换为运行HDFS Nam

《Hadoop MapReduce实战手册》一1.5 安装HDFS

1.5 安装HDFS Hadoop MapReduce实战手册HDFS是Hadoop的分布式文件系统.MapReduce任务使用HDFS读取和写入数据.HDFS部署包括一个NameNode和多个DataNode,如图1-3所示. 要想安装HDFS,需要先配置NameNode和DataNode,然后在slave文件中指定DataNode列表.当我们启动NameNode时,启动脚本将自动启动这些DataNode列表. 准备工作无论使用的是单台机器还是多台机器,本节都适用.如果你用的是多台机器,则应该

《Hadoop MapReduce实战手册》一导读

前言 Hadoop MapReduce实战手册本书目标是帮助读者学会处理大型的复杂数据集.本书虽从简单的例子开始,但仍然可以看到深入的内容.这是一本简单的一站式指南,传授如何完成复杂的事情.它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例. 本产品包括在Apache软件基金会(http://www.apache.org/)开发的软件. 本书涵盖的内容第1章解释了如何以单点模式以及集群模式安装和运行Hadoop. 第2章介绍了一套高级的HDFS操作,在处理大规