使用Windows Azure搭建Hadoop集群

  项目中在私有云中使用CDH (Cloudera Distribution Including Apache Hadoop)搭建Hadoop集群进行大数据计算。作为微软的忠实粉丝,将CDH部署到Windows Azure的虚拟机中是我的必然选择。由于CDH中包含多个开源服务,所以虚拟机需要开放的端口众多。Windows Azure中的虚拟机的网络是被安全隔离的,因此在Windows Azure中Virtual machines的服务中创建多个虚拟机安装Hadoop cluster,最佳的方案是为Hadoop集群创建虚拟网络,在虚拟网络中的资源和服务就像在虚拟私有云中互相访问,而与虚拟网络之外的其他资源是隔离的,从而实现安全性。

  What is CDH?

  CDH is the distribution of Apache Hadoop and related projects. CDH is 100% Apache-licensed open source and is the only Hadoop solution to offer unified batch processing, interactive SQL, and interactive search, and role-based access controls.

  在 Windows Azure 中创建虚拟网络

  登录到 Windows Azure 管理门户 , 在左下角单击"新建"。

  在"虚拟网络详细信息"屏幕上,输入虚拟网络的配置信息,然后单击"下一步"箭头。在此输入的配置信息包括虚拟网络的名称、地缘组区域和地缘组的名称。

  地缘组是一种用于在同一数据中心以物理方式将 Windows Azure 服务组合起来以提高性能的方法。只能向一个虚拟网络分配地缘组。

  设置DNS Server 和 VPN Connectivity,此步骤可不为跳过,在虚拟网络创建后需要时再设置。

  在"地址空间和子网"屏幕上,输入以下信息,然后单击"下一步"箭头。地址空间必须为用 CIDR 表示法指定的专用地址范围:10.0.0.0/8、172.16.0.0/12 或 192.168.0.0/16(由 RFC 1918 指定)。本例中选择的是 Starting IP 选择的是192.168.0.0。

  单击右下角的对号按钮,此时Windows Azure将根据提交的配置创建您的虚拟网络。

  此时,您已在 Windows Azure 中拥有一个虚拟网络,可以在门户的"虚拟网络"选项卡上看到它。更多的详细配置方法可参考Windows Azure 官方文档 在 Windows Azure 中创建虚拟网络 。

  从Windows Azure映像库中创建 Linux 虚拟机

  创建Linux虚拟机的步骤可参考 Windows Azure 上的文档《创建运行 Linux 的虚拟机》 http://www.windowsazure.cn/zh-cn/manage/linux/tutorials/virtual-machine-from-gallery/

  请注意在"虚拟机配置"对话框中的"REGION/AFFINITY GROUP/VIRTUAL NETWORK"选项中选择上一步骤中创建的虚拟网络。在本例中选中的是作者创建的虚拟网络"hadoopclusternetwork"。

  为虚拟机开放如下的端口,即在虚拟机配置中设置如下的Endpoints。

  Enable port for Virtual machines

  7180 (Cloudera Manager web UI)

  8020, 50010, 50020, 50070, 50075 (HDFS NameNode and DataNode)

  8021 (MapReduce JobTracker)

  8888 (Hue web UI)

  9083 (Hive/HCatalog metastore)

  41415 (Flume agent)

  11000 (Oozie server)

  21050 (Impala JDBC port)

  使用同样的方式创建多个虚拟机组成可按照Hadoop的集群,请注意多个虚拟机使用同一个虚拟网络。

  安装CDH

  配置各个主机上的/etc/hosts

  关闭防火墙

  在root下执行下面命令,可以临时关闭防火墙

  service iptables stop

  在root下执行下面命令,可以永久关闭防火墙(即,每次开机都会关闭),但需要重启生效。

  chkconfig iptables off

  关闭SELinux

  $ setenforce 0

  如果需要永久关闭,编辑/etc/selinux/config ,设置SELINUX=disabled

  ,然后完成安装。

  更改Cloudera-manager-installer.bin权限

  $ chmod u+x cloudera-manager-installer.bin

  $ ./cloudera-manager-installer.bin

  接着,接受许可协议,按Enter和Next,

  安装界面如下所示:

  启动 Cloudera Manager Admin 控制台

  通过Cloudera Manager Admin控制台,可以配置、管理、监控集群上的Hadoop,WEB端的URL地址是:http://myhost.example.com:7180,myhost.example.com是你安装Cloudera-Manager-installer.bin的主机域名,当然用IP也是可以的。例如我的WEB端URL地址就是:http://hcc1.cloudapp.net:7180 。按照提示安装即可,安装成功的界面如下图所示。

  原文链接:http://www.cnblogs.com/xuesong/p/3604080.html

时间: 2024-08-21 07:25:47

使用Windows Azure搭建Hadoop集群的相关文章

树莓派上搭建 Hadoop 集群环境的方法

最近在学习 Hadoop,正好前几天又在玩儿树莓派,查阅了一些文档,感觉在树莓派上搭建 Hadoop 集群是可行的,当然了,别对性能抱太大的希望,主要是感受一下分布式计算的魅力.在这个过程中参考了很多文档,先列在这里,基本上这些文档都非常详细了,大家可以直接参考. How to build 7 node Raspberry Pi Hadoop cluster Hadoop集群安装配置教程 Hadoop2.6.0 Ubuntu/CentOS 实验软硬件清单 以下是我的实验环境所用的硬件和软件版本清

搭建hadoop集群中遇到的各种问题,整理如下:

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     和同伴一起搭建hadoop集群中遇到的各种问题,整理如下: 前言 在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据.一转眼一两个月过去了,有些东 西对已经忘了.现在实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了.开始搭建Hadoop2.2.0分布式集群,也趁着这个机会 把

Linux服务器下搭建hadoop集群环境 redhat5/Ubuntu 12.04

Ubuntu 12.04 下搭建 hadoop 集群环境步骤 一. 搭建环境前的准备: 我的本机Ubuntu 12.04 32bit作为maser,就是上篇hadoop单机版环境搭建时用的那台机子,http://www.linuxidc.com/Linux/2013-01/78112.htm 还在KVM中虚拟了4台机子,分别起名为: son-1        (ubuntu 12.04 32bit),son-2        (ubuntu 12.04 32bit),son-3        (

windows7下搭建hadoop集群环境

问题描述 有人会在win7下搭建hadoop集群环境吗?我急需要搭建,有会的帮帮忙吧,我整了两天了没弄出来,着急死了!cygwin安装完运行sshlocalhost出现这种错误,是怎么回事啊? 解决方案 解决方案二:我是真心不会,帮顶吧,有份资料可以参考下,去搜"王家林hadoop".解决方案三:楼上的问题解决了吗?我跟你遇到了完全相同的问题~跪求答案

搭建hadoop集群为什么要设置SSH无密码登录?

问题描述 搭建hadoop集群为什么要设置SSH无密码登录? 解决方案 解决方案二:集群之间的调度需要.如:俩台服务器001和002.001执行重启的shell后002也要重启.这时候要通过ssh调用002的重启shell

cygwin在win7下搭建hadoop集群环境

问题描述 江湖救急!!有人会在win7下搭建hadoop集群环境吗?我急需要搭建!cygwin安装完运行sshlocalhost出错!

基于OSS存储搭建Hadoop集群

简介 本文以Ubuntu操作系统为例,介绍基于Aliyun OSS的hadoop-3.0.0-beta1的集群环境搭建过程,示例的集群环境包括1个master和2个slave节点(slave1和slave2).请参考官方文档. 操作账户默认使用root账户 注意:为了方便用户操作,减少错误发生,本文假定所有操作都是使用root账户:如果使用非root,请根据自己的实际情况进行操作步骤的修订. 在各个节点上操作目录均为/home/hadoop目录 所有下载软件包的存放和操作目录为:/home/ha

如何搭建Hadoop集群环境

第一步:安装 (1) 下载hadoop包 http://hadoop.apache.org/ (2) 登录需要配置hadoop的服务器(HadoopSrv01) su -gird(官方建议用grid账户搭建) (3) 解压 tar -xvf hadoop-2.1.0-bin.tar.gz 到一个目录比如/home/gird (4) 进入/home/gird 创建临时目录 tmp (5) 配置 hadoop-env.sh, core-site.xml, hdfs-site.xml,mapred-s

三天100元从零开始搭建Hadoop集群

    阿法狗把李昌镐都干掉了,不管是图形图片处理集群还是文字文本处理集群都将成为IT公司新一代的基础设施.公司准备先建立文字文本处理集群,即选择阿里E-MapReduce产品,快速搭建文本大数据处理系统,谋划公司新一代大数据处理架构,但是,初级阶段,不想为Hadoop的底层维护花费时间,集群维护一个工程师少说也要5K以上吧(四级城市),还有硬件和电费等等,公司决定先跑一个样本集群,再做下步谋划,以上也是很多公司对集群的态度吧.    创业阶段钱是精打细算了,阿里集群可以按时付费,最低每小时3.