用Hadoop进行分布式数据处理,第2部分

Hadoop 分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分 布多个节点的能力使 Hadoop 能够应用于大型基础设施以及大量数据的处理。本 文首先对一个分布式 Hadoop 架构进行分解,然后探讨分布式配置和使用。

分布式 Hadoop 架构

根据 用 Hadoop 进行分布式数据处理,第 1 部分:入门,所有 Hadoop 守 护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性,这个伪分布式配 置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在,让我们使用 机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分,Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上 运行。因此,让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个 分布式 Hadoop 设置中,您有一个主节点和一些从节点(见图 1)。

图 1. Hadoop 主从节点分解

如图 1 所示,主节点包括名称节点、从属名称节点和 jobtracker 守护进程 (即所谓的主守护进程)。此外,这是您为本演示管理集群所用的节点(使用 Hadoop 实用程序和浏览器)。从节点包括 tasktracker 和数据节点(从属守护 进程)。两种设置的不同之处在于,主节点包括提供 Hadoop 集群管理和协调的 守护进程,而从节点包括实现 Hadoop 文件系统(HDFS)存储功能和 MapReduce 功能(数据处理功能)的守护进程。

对于该演示,在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所 示。现在,我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图 2. Hadoop 集群配置

为简化部署,要运用虚拟化技术,该技术有几个好处。尽管在该设置中使用 虚拟化技术看不出性能优势,但是它可以创建一个 Hadoop 安装,然后为其他节 点克隆该安装。为此,您的 Hadoop 集群应显示如下:在一个主机上的虚拟机监 控程序上下文中将主从节点作为虚拟机(VM)运行(见图 3)。

图 3. 虚拟环境中的 Hadoop 集群配置

时间: 2024-12-27 00:23:20

用Hadoop进行分布式数据处理,第2部分的相关文章

用 Hadoop 进行分布式数据处理,从 入门、进阶到应用开发

入门 简介: 本文是讨论 Hadoop 的系列中的第一篇.本文介绍 Hadoop 框架,包括 Hadoop 文件系统 (HDFS) 等基本元素和常用的节点类型.学习如何安装和配置单节点 Hadoop 集群,然后研究 MapReduce 应用程序.最后,学习使用核心 Web 界面监视和管理 Hadoop 的方法. 尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分,但是它实际上是一个分布式数据处理框架.搜索引擎需要收集数据,而且是数量极大的数据.作为分布式框架,Hadoop 让许多应用程

用Hadoop进行分布式数据处理,第1部分

尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分,但是它实际上 是一个分布式数据处理框架.搜索引擎需要收集数据,而且是数量极大的数据. 作为分布式框架,Hadoop 让许多应用程序能够受益于并行数据处理. 本文并不打算介绍 Hadoop 及其架构,而是演示一个简单的 Hadoop 设置.现在 ,我们来讨论 Hadoop 的安装和配置. 初始设置 对于本文中的 示例,我们使用 Cloudera Hadoop 发行版.Cloudera 提供对各种 Linux 发行版的支持,所以很适合初学

用Hadoop进行分布式数据处理,第3部分

此系列的前两篇文章 专注于单节点和多节点集群的 Hadoop 安装及配置.最 后这篇文章探索了 Hadoop 编程 - 特别是在 Ruby 语言中 map 和 reduce 应用程序开发.我之所以选择 Ruby,首先是因为,它是一个您应该知道 的很棒的面向对象的脚本语言,其次,您将在 参考资料 部分发现很多参考,其 中包括解决 Java 和 Python 语言的教程.通过这种 MapReduce 编程的 探索,将向您介绍流式应用程序编程接口(Application Programming Int

Hadoop的分布式架构改进与应用

Hadoop的分布式架构改进与应用 Baofeng Zhang@zju  转载请注明出处:http://blog.csdn.net/zbf8441372  1.  背景介绍        谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2]和BigTable[3].虽然Google没有开源这三个技术的实现源码,但是基于这三篇开源文档, Nutch项目子项目之一的Yahoo资助的Hadoop分别实现了三个强有力的开源产品:HDFS,MapReduce和HBas

Cascading——针对Hadoop MapReduce的数据处理API

Cascading API的核心概念是管道和流.所谓管道,就是一系列处理步骤(解析.循环.过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收 器(data-sink)的管道的联合. Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的 算法. 该 处理API使开发者可以快速装配复杂的分布式流程,而无需"考 虑"MapReduce. 同时还

Hadoop并非大数据处理的一切 - 产品和技术

Hadoop并非大数据处理的一切 发布时间:2012.05.30 15:48      来源:赛迪网     作者: 云计算的伟大之处就在于在进行大数据处理时不必再向以往一样购买大量的服务器集群,租用服务器处理大数据更加利用控制成本.Hadoop作为一个重量级的分布式处理开源框架已经在大数据处理领域有所作为,企业希望利用Hadoop来规划其自身未来数据处理的蓝图.从EMC.Oracle到Microsoft,几乎所有高科技厂商都在过去几个月中宣布了自己以Hadoop为基础的大数据战略.现今Hado

解读:基于Hadoop的大规模数据处理系统

Hadoop的组成部分 Hadoop是Google的MapReduce一个Java实现.MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行. Hadoop主要由HDFS.MapReduce和HBase等组成.具体的组成如下图: Hadoop的组成图 1. Hadoop HDFS是Google GFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase. HyperTable)的

用Hadoop进行分布式并行编程, 第1部分

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数 据的计算.本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法. Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储 对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoo

大数据-hadoop伪分布式环境搭建

问题描述 hadoop伪分布式环境搭建 最近开始新学hadoop,想搭建个伪分布式环境,而自己的电脑配置不高,不能运行虚拟机,可以利用阿里云来搭建伪分布式运行环境吗? 解决方案 阿里云搞几台机器在一个局域网就可以搭建或者用单机模式 解决方案二: 嗯,单机模式是不是不用装虚拟机