用Hadoop进行分布式数据处理，第2部分

Hadoop 分布式计算架构的真正实力在于其分布性。换句话说，向工作并行分布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式 Hadoop 架构进行分解，然后探讨分布式配置和使用。

分布式 Hadoop 架构

根据用 Hadoop 进行分布式数据处理，第 1 部分：入门，所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性，这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在，让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分，Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此，让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中，您有一个主节点和一些从节点（见图 1）。

图 1. Hadoop 主从节点分解

如图 1 所示，主节点包括名称节点、从属名称节点和 jobtracker 守护进程（即所谓的主守护进程）。此外，这是您为本演示管理集群所用的节点（使用 Hadoop 实用程序和浏览器）。从节点包括 tasktracker 和数据节点（从属守护进程）。两种设置的不同之处在于，主节点包括提供 Hadoop 集群管理和协调的守护进程，而从节点包括实现 Hadoop 文件系统（HDFS）存储功能和 MapReduce 功能（数据处理功能）的守护进程。

对于该演示，在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在，我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图 2. Hadoop 集群配置

为简化部署，要运用虚拟化技术，该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装。为此，您的 Hadoop 集群应显示如下：在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机（VM）运行（见图 3）。

图 3. 虚拟环境中的 Hadoop 集群配置

时间： 2024-12-27 00:23:20

用Hadoop进行分布式数据处理，第2部分

用Hadoop进行分布式数据处理，第2部分的相关文章

用 Hadoop 进行分布式数据处理，从入门、进阶到应用开发

用Hadoop进行分布式数据处理，第1部分

用Hadoop进行分布式数据处理，第3部分

Hadoop的分布式架构改进与应用

Cascading——针对Hadoop MapReduce的数据处理API

Hadoop并非大数据处理的一切 - 产品和技术

解读：基于Hadoop的大规模数据处理系统

用Hadoop进行分布式并行编程, 第1部分

大数据-hadoop伪分布式环境搭建