《Hadoop MapReduce实战手册》一1.2 在你的机器上安装Hadoop

准备工作
从http://www.oracle.com/technetwork/java/javase/downloads/index.html下载并安装Java 1.6或者更高版本。

操作步骤
现在让我们来完成Hadoop的安装。

从http://hadoop.apache.org/下载最新的Hadoop 1.0分支发行版。
使用下列命令解压Hadoop发行版。必须将文件名中的x.x换成你实际下载的版本号。如果你使用的是Windows，可以使用自己喜欢的解压缩工具（如WinZip或者WinRAR）去解压发行包。从现在的情况来看，我们应该把解压后的Hadoop目录叫做HADOOP_HOME。

>tar -zxvf hadoop-1.x.x.tar.gz

在解压完发行版之后，就可以使用Hadoop的本地模式了。安装也就完成了。现在，你可以通过bin/hadoop命令运行Hadoop作业了，我们将在下一节中详尽阐述。

工作原理
Hadoop本地模式并不启动任何服务进程，而是在同一个JVM中完成所有的工作。当你在Hadoop本地模式中提交一个作业时，这个作业启动一个JVM去运行并完成该作业。作业的输出和行为与分布式的Hadoop作业相同，只是作业只能使用当前的节点运行任务。在1.3节中，我们将探索如何使用解压后的Hadoop发行版去运行一个MapReduce程序。

时间： 2024-08-04 12:30:17

《Hadoop MapReduce实战手册》一1.2 在你的机器上安装Hadoop的相关文章

《Hadoop MapReduce实战手册》一2.10 挂载HDFS（Fuse-DFS）

2.10 挂载HDFS(Fuse-DFS) Hadoop MapReduce实战手册 Fuse-DFS项目使我们能够在Linux上挂载HDFS(也支持许多其他版本的Unix)作为标准的文件系统.这样做,可以允许任何程序或用户使用类似于传统的文件系统的方式访问HDFS和与HDFS交互. 准备工作系统中必须安装以下软件: Apache Ant(http://ant.apache.org/): Fuse和fuse开发包.Fuse开发文件可以通过Redhat/Fedora安装fuse-devel RP

《Hadoop MapReduce实战手册》一导读

前言 Hadoop MapReduce实战手册本书目标是帮助读者学会处理大型的复杂数据集.本书虽从简单的例子开始,但仍然可以看到深入的内容.这是一本简单的一站式指南,传授如何完成复杂的事情.它以一种简单而直接的方式呈现了90个攻略,给出了一步步的指导和真实环境的应用示例. 本产品包括在Apache软件基金会(http://www.apache.org/)开发的软件. 本书涵盖的内容第1章解释了如何以单点模式以及集群模式安装和运行Hadoop. 第2章介绍了一套高级的HDFS操作,在处理大规

《Hadoop MapReduce实战手册》一1.8 在分布式集群环境中设置Hadoop

1.8 在分布式集群环境中设置Hadoop Hadoop MapReduce实战手册 Hadoop的部署包括一套HDFS.一个JobTracker和多个TaskTracker.在1.5节中,我们讨论了HDFS的部署.为了设置Hadoop,我们需要配置JobTracker和TaskTracker,然后在HADOOP_ HOME/conf/slaves文件中指定TaskTracker列表.当我们启动JobTracker时,它会启动相应的TaskTracker节点列表.图1-5描述了一套完整的Hado

《Hadoop MapReduce实战手册》一2.11 在HDFS中合并文件

2.11 在HDFS中合并文件 Hadoop MapReduce实战手册本节将传授如何合并HDFS中的若干文件,以创建一个单独的文件.对于获取有多个输出部分结果的reducer的MapReduce作业的计算结果来说,这招非常有用. 操作步骤HDFS的getMerge命令可以将HDFS中给定路径下的文件,复制到本地文件系统的单个合并后的文件中. >bin/hadoopfs -getmerge /user/foo/demofiles merged.txt 工作原理getmerge命令的语法如下: h

《Hadoop MapReduce实战手册》一第1章搭建Hadoop并在集群中运行

第1章搭建Hadoop并在集群中运行 Hadoop MapReduce实战手册本章将学习以下内容: 在你的机器上安装Hadoop 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它给WordCountMapReduce程序增加combiner步骤安装HDFS 使用HDFS监控UI HDFS的基本命令行文件操作在分布式集群环境中设置Hadoop 在分布式集群环境中运行WordCount程序使用MapReduce监控UI

《Hadoop MapReduce实战手册》一1.7 HDFS的基本命令行文件操作

1.7 HDFS的基本命令行文件操作 Hadoop MapReduce实战手册HDFS是一个分布式的文件系统,就像一个Unix文件系统一样,它允许用户使用shell命令操纵文件系统.本节将说明如何使用HDFS的基本命令行来执行这些操作. 值得注意的是,每一条HDFS命令都有一个与之一一对应的Unix命令.例如,下面的命令: >hadoopdfs –cat /data/foo.txt 该命令用于读取/data/foo.txt文件,并把它打印到屏幕上,就像Unix系统的cat命令一样. 准备工作通过

《Hadoop MapReduce实战手册》一2.2 HDFS基准测试

2.2 HDFS基准测试 Hadoop MapReduce实战手册运行基准测试程序,可以很好地验证HDFS集群是否已如预期般正确设置并执行.DFSIO是一个Hadoop自带的基准测试,可以用来分析一个HDFS集群的I/O性能.该部分展示了如何使用DFSIO来对HDFS集群的读取和写入性能进行基准测试. 准备工作在运行这些基准程序之前,必须安装和部署HDFS和MapReduce.导出HADOOP_HOME环境变量,将其指向Hadoop安装根目录: >export HADOOP_HOME = /..

《Hadoop MapReduce实战手册》一2.7 设置文件冗余因子

2.7 设置文件冗余因子 Hadoop MapReduce实战手册HDFS跨集群存储文件时,会把文件切分成粗粒度的.大小固定的块.出于容错的目的,这些粗粒度的数据块会被复制到不同的DataNode中.数据块的冗余有助于增加数据本地化MapReduce计算的能力,同时也可以增加总的数据访问带宽.减少冗余因子则有助于节省HDFS上的存储空间. HDFS冗余因子(HDFS replication factor)是文件级属性,可以基于每个文件进行单独配置.本节将展示如何通过改变HDFS部署的默认冗余因子

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2.6 设置HDFS块大小 Hadoop MapReduce实战手册HDFS跨集群存储文件时,会把文件切分成粗粒度的.大小固定的块.默认的HDFS块大小为64 MB.数据产品的块大小会影响文件系统操作的性能,如果存储和处理非常大的文件,那么较大的块大小会更高效.数据产品的块大小会影响MapReduce计算的性能,因为Hadoop的默认行为是为输入文件中的每个数据块创建一个map任务. 操作步骤要使用NameNode的配置文件来设置HDFS的块大小,需要在$HADOOP_HOME/conf/hd

《Hadoop MapReduce实战手册》一1.1 简介

1.1 简介 Hadoop MapReduce实战手册很多年来,想要存储和分析数据的用户都需要先将数据存储在数据库中,然后再通过SQL查询来处理.万维网已经改变了这个时代的大多数假设.万维网上的数据是非结构化的大型数据,以至于数据库既不能以某种模式捕捉它们,也无法扩展存储和处理它们. Google是最早面对这类问题的组织之一,他们想要下载镜像因特网数据并索引它们以支持搜索查询.他们创建了一个用于大规模数据处理的框架,借鉴了函数式编程范式的"map"函数和"reduce&quo