Hadoop + Hive + Map +reduce 集群安装部署

  环境准备:

  CentOS 5.5 x64&">nbsp; (3台)

  10.129.8.52  (master) ======>> NameNode, SecondaryNameNode,JobTracker

  10.129.8.76    (slave01) ======>> DataNode, TaskTracker

  10.129.8.33    (slave02) ======>> DataNode, TaskTracker

  单台机器的本地host 文件如下:

  10.129.8.52    master

  10.129.8.76    slave01

  10.129.8.33    slave02

  (一) 配置好master 到slave 的ssh 登陆信任关系,做好都相互之间到配置好

  (二) 安装好 java version "1.6.0_24"  源码包为jdk-6u24-linux-x64.bin

  (三) 安装Hadoop 集群

  下载hadoop-1.2.0.tar.gz,
然后解压到/home/hadoop/hadoop目录下

  修改相应的配置文件:

  1 hadoop-env.sh  指明 java 的环境变量    export JAVA_HOME=/usr/local/java/jdk1.6.0_24

  2 core-site.xml

  <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <configuration>

  <property>

  <name>fs.default.name</name>

  <value>hdfs://master:9010</value>

  </property>

  <property>

  <name>hadoop.tmp.dir</name>

  <value>/home/hadoop/hadoop/tmp</value>

  </property>

  </configuration>

  3 mapred-site.xml

  <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <configuration>

  <property>

  <name>mapred.job.tracker</name>

  <value>master:9011</value>

  </property>

  <property>

  <name>mapred.local.dir</name>

  <value>/home/hadoop/hadoop/tmp</value>

  </property>

  </configuration>

  4 hdfs-site.xml

  <?xml version="1.0"?>

  <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- Put site-specific property overrides in this file. -->

  <!--

  NameNode 主要存放文件映射和文件更改日志

  SecondaryNameNode 一个守护进程 定时从NameNode同步文件更改日志并合并成一条日志,方便hadoop每次重启时 找到上次宕机的还原点。在后续的版本中会被backupNameNode和nameNode集群取代。

  Jobtracker 任务调度守护进程

  Tasktracker 任务执行进程

  DataName  数据存储节点,往往和Tasktracker部署在同一台机器上。

  -->

  <configuration>

  <property>

  <name>dfs.name.dir</name>        // 指定name 镜像文件存放目录,如不指定则

  <value>/home/hadoop/filedata/name01,/home/hadoop/filedata/name02</value> //默
认为core-site中配置的tmp目录

  </property>

  <property>

  <name>dfs.data.dir</name>            // 数据存放的目录,如果不写 默认为

  <value>/home/hadoop/filedata/data01</value>  // core-site中配置的tmp目录

  </property>

  <property>

  <name>dfs.replication</name>

  <value>2</value>

  </property>

  </configuration>

  5 masters

  master

  6 slaves      (如果这里包含有master的主机名,
那么master也会成为datanode,如果没有,那么master就只会成为namenode,不会成为datanode)

  slave01

  slave02

  (四)  创建相应的目录:

  /home/hadoop/hadoop/tmp    hadoop.tmp.dir :Hadoop的默认临时路径,这个
最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。
不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。

  /home/hadoop/filedata            NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。(他下面有子目录,程序自己创建)

  /home/hadoop/filedta/data01      DataNode存放块数据的本地文件系统路径,逗号分割的列表。 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。 (程序自己创建)

  (五)  在namenode 上格式化

  /home/hadoop/hadoop/bin/hadoop namenode -format

  查看输出保证分布式文件系统格式化成功

  执行完后可以到master机器上看到/home/hadoop//name1和/home/hadoop//name2两个目录。在主节点                master上面启动hadoop,主节点会启动所有从节点的hadoop。

  (六)  /home/hadoop/hadoop/bin/start-all.sh (启动所有服务)

  执行完毕后,可以用jps 查看所有启动的服务      (启动日志在hadoop安装的logs目录下)

  [hadoop@master ~]$ jps

  16276 SecondaryNameNode

  16374 JobTracker

  16103 NameNode

  19003 Jps

  这时可以去看看dataname节点上有没有创建数据目录,当然也可以用jps查看,
但是我的dataname有得这个命令可以用,有得不可以,原因待查

  (七) 上传文件测试

  /home/hadoop/hadoop/bin/hadoop dfs -put X-ForWarded-For-survey.beisen.com-10.22.1.35_D2013070* /home/
iis_log/survey.beisen.com/20130705

  (八) 查看上传的文件

  /home/hadoop/hadoop/bin/hadoop dfs -ls /home/iis_log/survey.beisen.com/20130705

时间: 2024-09-19 08:54:07

Hadoop + Hive + Map +reduce 集群安装部署的相关文章

Storm集群安装部署步骤

开始学习Storm,本文主要记录Storm集群安装部署步骤,不包括对Storm的介绍. 安装storm集群,需要依赖以下组件: Zookeeper Python Zeromq Storm JDK JZMQ 故安装过程根据上面的组件分为以下几步: 安装JDK 安装Zookeeper集群 安装Python及依赖 安装Storm 另外,操作系统环境为:Centos6.4,安装用户为:root. 1. 安装JDK 安装jdk有很多方法,可以参考文博客使用yum安装CDH Hadoop集群中的jdk安装步

Oracle 10g RAC集群安装部署过程中如何安装RAC集群套件

一.首先解压集群套件包: gunzip 10201_clusterware_linux_x86_64.gz cpio -idmv < 10201_clusterware_linux_x86_64.cpio 解压放置的地方需要有oracle用户使用的权限 二.开始安装oracle RAC集群套件, 2.2.1.安装之前首先关闭两个节点的防火墙,Selinux不然是无法通过安装的 2.2.2.安装之前修改系统版本,来欺诈oracle数据库,然后执行xhost+ 2.2.3.完成上面的配置之后,使用o

oracle 10g RAC集群安装部署的准备工作

一.基本环境需求 系统环境: 系统版本:RHEL5U8 x86_64 ORACLE版本:ORACLE 10.2.1 IP地址 odb1 192.168.100.144 192.168.101.144 odb2 192.168.100.143 192.168.101.143 服务器关闭Selinux/iptables 二.前期准备工作 修改两台计算机的主机名字 odb1 odb1-priv odb1-vip obd2 odb2-priv odb2-vip 配置yum源码,保证数据包都完整安装,or

Hadoop2.6(NN/RM)高可用集群安装与部署

 Hadoop2对HDFS的改进很大,支持HDFS(NameNode) 和ResourceManager高可用性,避免集群中单点故障造成整个集群不可用.那么,从本文开始将部署一套高可用Hadoop集群及家族中相关开源系统,具体根据下面规划来,本文只部署高可用Hadoop集群,后续很快更新其他软件部署及使用. 一.部署前准备 操作系统:CentOS7_x64 安装目录:/opt 1. 节点分配 HostName IP Hadoop HBase Zookeeper Hive HMaster0 192

完全分布模式hadoop集群安装配置之一安装第一个节点

  本系列文章讲述搭建完全分布模式hadoop的安装配置过程,还将讲述完全分布式模式的一些基本操作.准备采用先单机调通再加入节点的方式.本文只讲述单节点的安装和配置.   1. Namenode和JobTracker的安装       这是完全分布模式集群的第一台,也是很关键的一台.采用VMWARE虚拟的Ubuntu Linux 11.10  server版.安装Linux非本文重点就不说了. 默认建立了一个用户叫abc, 其有sudo权限.root的口令是随机的一个口令,只能用sudo命令暂时

完全分布模式hadoop集群安装配置之二 添加新节点组成分布式集群

前文说到如何搭建集群中第一个节点,这篇将说到如何向集群添加节点.这篇是基于前文的,没有看过前文的可以参考此链接:http://www.cnblogs.com/mikelij/archive/2012/03/06/2380937.html   2 向集群添加节点     前文已经建立了一个节点的hadoop集群.现在要做的添加节点.安装JDK, 创建hadoop用户等见前文.这里就不重复了.   2.1 检查主机名,修改/etc/hostname, /etc/hosts   新节点需要在这个集群里

浅谈大规模Hadoop集群自动化部署与运维

文章讲的是浅谈大规模Hadoop集群自动化部署与运维,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r

Hadoop学习之ZooKeeper理论知识和集群安装配置

ZooKeeper集群安装配置和理论知识 1.   简介:zookeeper是Google的Chubby的一个开源实现,是hadoop的分布式协调服务 2.    Zookeeper(简称zk)包含一个简单的原语集,分布式应用程序可以给予它实现同步服务,配置维护和命名服务等 3.    Zk的设计目标 a)      简单化:通过共享体系的,命名空间进行协调,与文件系统相似,有一些数据寄存器组成,被称为Znode.Zk的数据是放在内存中的,zk可以达到高吞吐量.低延迟. Zk能用在大型.分布式的

Hadoop 学习第三天之集群安装(上)

Hadoop 学习之集群安装(上) 将配置的伪分布模式的虚拟机克隆两份并更名为centos_node2和centos_note3 分别打开三个虚拟机,第一个基本不需要配置了,现在主要配置centos_note2和centos_note3的配置. 1.   首先修改IP地址和主机名 因为centos是hadoop1和192.168.100.11,在这里设置centos_note2和centos_note3的主机名和IP地址分别为:hadoop2/192.168.100.12和hadoop3/192