利用Cloudera部署Hadoop规划与安装

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架。MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理,目前最成功的应用是分布式搜索引擎。随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。近两年尤其是今年国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类的电信公司采用该模型分析用户信息,优化网络配置;美国供电局采用该模型来分析电网现状;包括VISA和JP摩根在内的金融公司采用该模型来分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始采用该模型;甚至部分生物公司也采用该模型来进行DNA测序和分析。然而Hadoop安装、部署、管理的难度非常大,这使用很多用户对Hadoop望而却步,好在这种情况不久就得到了改善,Cloudera提供了非常简单的Hadoop的发布版本,能够十分方便地对Hadoop进行安装、部署和管理,这导致目前大约有75%的Hadoop新用户使用Cloudera。

运行模式

Hadoop有三种运行模式:单机(非分布)运行模式、伪分布运行模式和分布式运行模式。其中前两种运行模式体现不了 Hadoop 分布式计算的优势,并没有什么实际意义(当然它们对程序的测试及调试还是很有帮助的),因此在这里还是采用实际环境中使用的分布式运行模式来部署。

主机规划

在这里拟采用三台主机搭建Hadoop环境,由于后期还需要测试增删主机及跨网段主机对Hadoop环境的影响,特将Hadoop主机规划如下:

Hadoop-01 10.137.253.201

Hadoop-02 10.137.253.202

Hadoop-03 10.137.253.203 准备后期加入的测试主机

Hadoop-04 10.137.253.204

Firehare-303 10.10.3.30  准备后期加入的跨网段测试主机

时间: 2024-10-27 15:13:46

利用Cloudera部署Hadoop规划与安装的相关文章

《精通VMware vSphere 6》——第2章 规划与安装 VMware ESXi 2.1规划VMware vSphere部署

第2章 规划与安装 VMware ESXi 第1章已经详细介绍了VMware vSphere套件及其应用程序,我们由此了解到VMware ESXi是vSphere的基础.虽然安装十分简单,但要成功部署和配置VMware ESXi,必须正确规划基于VMware实现的环境. 2.1 规划VMware vSphere部署 部署VMware vSphere不仅是将服务器虚拟化.和物理服务器一样,vSphere部署也会影响到存储.网络和安全性.由于这些方面对组织中许多的IT组件都会产生重大影响,因此vSp

Cloudera(CDH) 简介和在线安装

实验背景 笔者需要维护线上的hadoop集群环境,考虑在本地搭建一套类似的hadoop集群,便于维护与管理. Cloudera 简介 经过搜索发现Cloudera产品很适合笔者当前需求,于是开始研究Cloudera(CDH)的安装与使用,参考: Cloudera 官网:https://www.cloudera.com Cloudera 官方文档: https://www.cloudera.com/documentation/enterprise/latest.html CDH是Apache Ha

初学hadoop经历及使用Ambari快速部署Hadoop大数据环境介绍

前言 做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的http://www.aliyun.com/zixun/aggregation/14417.html">Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能. 作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(Cen

IT企业利用云计算平台Hadoop的10种方式

如果你是世界上广大Hadoop用户的一员,你肯定知道Google曾经靠着分布式计算技术(Hadoop),在搜索引擎和广告方面取得了举世瞩目的成就.现在的Hadoop不仅是当年的老二Yahoo的专用产品了,从Hadoop长长的用户名单中,可以看到Facebook, 可以看到Linkedin,可以看到Amazon,可以看到EMC, eBay,Tweeter,IBM, Microsoft, Apple, HP- 国内的公司有淘宝.百度等等.而今天我们要探讨的是,Hadoop 作为基础云计算平台,除了广

《Puppet实战手册》——1.8 利用Rake部署变更

1.8 利用Rake部署变更 Rake是一个基于Ruby语言编写的实用工具,它可以帮助自动化完成Puppet的工作流程.虽然有很多其他方法支持在远程服务器上运行命令,但是Rake碰巧是本书使用的方法,它很容易扩展,可以非常方便地使用它做任何事. 此处要让Rake为做的第一件事情是:登录到远程服务器上,运行pull-updates脚本,将新修改的Puppet配置清单应用到该服务器上.做起来非常简单,下面来看看它是如何实现的. 准备工作 你可能已经安装了Rake(尝试运行rake命令进行检查),如果

Cloudera将Hadoop打造万能数据解决方案

Cloudera将Hadoop作为企业数据枢纽的想法非常大胆,但是现实却大相径庭.Hadoop距离让其他大数据解决方案黯然失色还有很长的一段路要走. 当你有了一把足够大的锤子时,所有的东西看起来都是钉子.这是Hadoop 2.0所面临的众多潜在问题之一.目前,让开发者和终端用户最关注的是Hadoop 2.0大规模地修改了大数据处理的框架.Cloudera计划将Hadoop 2.0打造成一把能够应对所有不同钉子的万能锤子. 毫无疑问,Hadoop 2.0与之前的产品相比性能有了很大的提升.之前对于

CIO部署Hadoop前需要考虑哪些因素

当"大数据"成为人们话题时,Apache Hadoop经常是紧追其后.有一个很好的理由来说明这个问题:Hadoop有一个不惧导入不同数据结构的文件系统,还有一个大规模并行处理系统(MPP)来快速处理庞大数据集.况且,由于Hadoop建立在商用硬件和开源软件基础上,它兼具低廉和可扩展的优势. 这些特点使得Hadoop架构成为很吸引CIO的一项技术,特别在他们面临着既要引进更多差异化.新型数据,又要控制成本的压力情况下更是如此.Forreste的企业架构师Brian Hopkins认为,仍

部署Hadoop的公司要慎重考虑

近些年,Hadoop和"走向大数据分析引擎"一样,受到颇多赞誉.对很多人来说,Hadoop就意味着大数据技术.但其实开源的分布式处理框架未必能解决所有的大数据问题.这就要求想要部署Hadoop的公司慎重考虑--什么时候应用Hadoop,什么时候应用其他产品. 举例来讲,用Hadoop处理大规模无结构数据或半结构数据可以说绰绰有余.但它处理小数据集的速度却鲜为人知.而这一点就限制了Hadoop在Metamarkets集团的应用.Metamarkets集团位于旧金山,为在线广告提供实时市场

部署Hadoop相关的四个解决方案

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     Apache Hadoop距离企业级应用可以说是越来越近了,不少大型公司在他们的系统中都部署了Hadoop的相关解决方案.然而对于公司的高层领导来说,它只是一个符号化的名词. Hadoop到底适不适合我们企业?部署Hadoop到底划不划算?它能给我们带来什么?对于究竟要不要投资这项技术,你需要向领导解释清楚.本文就介绍了一些关于Hadoop的常见问题,希望能