环境准备:
CentOS 5.5 x64&">nbsp; (3台)
10.129.8.52 (master) ======>> NameNode, SecondaryNameNode,JobTracker
10.129.8.76 (slave01) ======>> DataNode, TaskTracker
10.129.8.33 (slave02) ======>> DataNode, TaskTracker
单台机器的本地host 文件如下:
10.129.8.52 master
10.129.8.76 slave01
10.129.8.33 slave02
(一) 配置好master 到slave 的ssh 登陆信任关系,做好都相互之间到配置好
(二) 安装好 java version "1.6.0_24" 源码包为jdk-6u24-linux-x64.bin
(三) 安装Hadoop 集群
下载hadoop-1.2.0.tar.gz,
然后解压到/home/hadoop/hadoop目录下
修改相应的配置文件:
1 hadoop-env.sh 指明 java 的环境变量 export JAVA_HOME=/usr/local/java/jdk1.6.0_24
2 core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9010</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadoop/tmp</value>
</property>
</configuration>
3 mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9011</value>
</property>
<property>
<name>mapred.local.dir</name>
<value>/home/hadoop/hadoop/tmp</value>
</property>
</configuration>
4 hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<!--
NameNode 主要存放文件映射和文件更改日志
SecondaryNameNode 一个守护进程 定时从NameNode同步文件更改日志并合并成一条日志,方便hadoop每次重启时 找到上次宕机的还原点。在后续的版本中会被backupNameNode和nameNode集群取代。
Jobtracker 任务调度守护进程
Tasktracker 任务执行进程
DataName 数据存储节点,往往和Tasktracker部署在同一台机器上。
-->
<configuration>
<property>
<name>dfs.name.dir</name> // 指定name 镜像文件存放目录,如不指定则
<value>/home/hadoop/filedata/name01,/home/hadoop/filedata/name02</value> //默
认为core-site中配置的tmp目录
</property>
<property>
<name>dfs.data.dir</name> // 数据存放的目录,如果不写 默认为
<value>/home/hadoop/filedata/data01</value> // core-site中配置的tmp目录
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
5 masters
master
6 slaves (如果这里包含有master的主机名,
那么master也会成为datanode,如果没有,那么master就只会成为namenode,不会成为datanode)
slave01
slave02
(四) 创建相应的目录:
/home/hadoop/hadoop/tmp hadoop.tmp.dir :Hadoop的默认临时路径,这个
最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。
不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。
/home/hadoop/filedata NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。(他下面有子目录,程序自己创建)
/home/hadoop/filedta/data01 DataNode存放块数据的本地文件系统路径,逗号分割的列表。 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。 (程序自己创建)
(五) 在namenode 上格式化
/home/hadoop/hadoop/bin/hadoop namenode -format
查看输出保证分布式文件系统格式化成功
执行完后可以到master机器上看到/home/hadoop//name1和/home/hadoop//name2两个目录。在主节点 master上面启动hadoop,主节点会启动所有从节点的hadoop。
(六) /home/hadoop/hadoop/bin/start-all.sh (启动所有服务)
执行完毕后,可以用jps 查看所有启动的服务 (启动日志在hadoop安装的logs目录下)
[hadoop@master ~]$ jps
16276 SecondaryNameNode
16374 JobTracker
16103 NameNode
19003 Jps
这时可以去看看dataname节点上有没有创建数据目录,当然也可以用jps查看,
但是我的dataname有得这个命令可以用,有得不可以,原因待查
(七) 上传文件测试
/home/hadoop/hadoop/bin/hadoop dfs -put X-ForWarded-For-survey.beisen.com-10.22.1.35_D2013070* /home/
iis_log/survey.beisen.com/20130705
(八) 查看上传的文件
/home/hadoop/hadoop/bin/hadoop dfs -ls /home/iis_log/survey.beisen.com/20130705
Hadoop + Hive + Map +reduce 集群安装部署
时间: 2024-09-19 08:54:07
Hadoop + Hive + Map +reduce 集群安装部署的相关文章
Storm集群安装部署步骤
开始学习Storm,本文主要记录Storm集群安装部署步骤,不包括对Storm的介绍. 安装storm集群,需要依赖以下组件: Zookeeper Python Zeromq Storm JDK JZMQ 故安装过程根据上面的组件分为以下几步: 安装JDK 安装Zookeeper集群 安装Python及依赖 安装Storm 另外,操作系统环境为:Centos6.4,安装用户为:root. 1. 安装JDK 安装jdk有很多方法,可以参考文博客使用yum安装CDH Hadoop集群中的jdk安装步
Oracle 10g RAC集群安装部署过程中如何安装RAC集群套件
一.首先解压集群套件包: gunzip 10201_clusterware_linux_x86_64.gz cpio -idmv < 10201_clusterware_linux_x86_64.cpio 解压放置的地方需要有oracle用户使用的权限 二.开始安装oracle RAC集群套件, 2.2.1.安装之前首先关闭两个节点的防火墙,Selinux不然是无法通过安装的 2.2.2.安装之前修改系统版本,来欺诈oracle数据库,然后执行xhost+ 2.2.3.完成上面的配置之后,使用o
oracle 10g RAC集群安装部署的准备工作
一.基本环境需求 系统环境: 系统版本:RHEL5U8 x86_64 ORACLE版本:ORACLE 10.2.1 IP地址 odb1 192.168.100.144 192.168.101.144 odb2 192.168.100.143 192.168.101.143 服务器关闭Selinux/iptables 二.前期准备工作 修改两台计算机的主机名字 odb1 odb1-priv odb1-vip obd2 odb2-priv odb2-vip 配置yum源码,保证数据包都完整安装,or
Hadoop2.6(NN/RM)高可用集群安装与部署
Hadoop2对HDFS的改进很大,支持HDFS(NameNode) 和ResourceManager高可用性,避免集群中单点故障造成整个集群不可用.那么,从本文开始将部署一套高可用Hadoop集群及家族中相关开源系统,具体根据下面规划来,本文只部署高可用Hadoop集群,后续很快更新其他软件部署及使用. 一.部署前准备 操作系统:CentOS7_x64 安装目录:/opt 1. 节点分配 HostName IP Hadoop HBase Zookeeper Hive HMaster0 192
完全分布模式hadoop集群安装配置之一安装第一个节点
本系列文章讲述搭建完全分布模式hadoop的安装配置过程,还将讲述完全分布式模式的一些基本操作.准备采用先单机调通再加入节点的方式.本文只讲述单节点的安装和配置. 1. Namenode和JobTracker的安装 这是完全分布模式集群的第一台,也是很关键的一台.采用VMWARE虚拟的Ubuntu Linux 11.10 server版.安装Linux非本文重点就不说了. 默认建立了一个用户叫abc, 其有sudo权限.root的口令是随机的一个口令,只能用sudo命令暂时
完全分布模式hadoop集群安装配置之二 添加新节点组成分布式集群
前文说到如何搭建集群中第一个节点,这篇将说到如何向集群添加节点.这篇是基于前文的,没有看过前文的可以参考此链接:http://www.cnblogs.com/mikelij/archive/2012/03/06/2380937.html 2 向集群添加节点 前文已经建立了一个节点的hadoop集群.现在要做的添加节点.安装JDK, 创建hadoop用户等见前文.这里就不重复了. 2.1 检查主机名,修改/etc/hostname, /etc/hosts 新节点需要在这个集群里
浅谈大规模Hadoop集群自动化部署与运维
文章讲的是浅谈大规模Hadoop集群自动化部署与运维,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r
Hadoop学习之ZooKeeper理论知识和集群安装配置
ZooKeeper集群安装配置和理论知识 1. 简介:zookeeper是Google的Chubby的一个开源实现,是hadoop的分布式协调服务 2. Zookeeper(简称zk)包含一个简单的原语集,分布式应用程序可以给予它实现同步服务,配置维护和命名服务等 3. Zk的设计目标 a) 简单化:通过共享体系的,命名空间进行协调,与文件系统相似,有一些数据寄存器组成,被称为Znode.Zk的数据是放在内存中的,zk可以达到高吞吐量.低延迟. Zk能用在大型.分布式的
Hadoop 学习第三天之集群安装(上)
Hadoop 学习之集群安装(上) 将配置的伪分布模式的虚拟机克隆两份并更名为centos_node2和centos_note3 分别打开三个虚拟机,第一个基本不需要配置了,现在主要配置centos_note2和centos_note3的配置. 1. 首先修改IP地址和主机名 因为centos是hadoop1和192.168.100.11,在这里设置centos_note2和centos_note3的主机名和IP地址分别为:hadoop2/192.168.100.12和hadoop3/192