HA机制下的Hadoop配置

[版权申明:本文系作者原创,转载请注明出处]
文章出处:http://www.cnblogs.com/sdksdk0/p/5585355.html
作者: 朱培    ID:sdksdk0
--------------------------------------------------

在我之前的一篇博客中,已经分享了关于hadoop的基本配置,地址:http://blog.csdn.net/sdksdk0/article/details/51498775,但是那个是使用与初学者学习和测试的,今天用分享的这个比上次那个要复杂一些,主要是加了zookeeper和两台namenode的配置,同时使用这种方式,可以解决服务器的脑裂问题。

一、hdfs的HA机制

NameNode服务器一台是ACTIVE和一台是STANDBY。通过Qjournal(日志管理系统) 使用zkfc(基于zookeeper失败切换控制)

如何防止脑裂现象: 当ACTIVE假死的时候,STANDBY的zkfc会发出指令 ssh kill-9 namenode 返回0(成功杀死,返回1则杀死失败)的时候再去通知第二台namenode去切换状态。 若无返回码的时候(超时未响应),则启动proweroff.sh(用户自定义的脚本)给第一台namenode断电,返回0则执行正常,然后去切换。

当第一台机器断电的时候(指活跃状态的namenode和zkfc都断电了),则第2台的zkfc会执行proweroff.sh。

关键词: 1、有两个namenode,分别是active和standby.

2、有两个zkfc来监控和管理两个namenode的状态

3、元数据日志edits由一个专门的日志系统负责管理--qjoournal

4、zkfc及qjournal的功能都要依赖于zookeeper的服务来实现

5、zkfc做状态切换时有两个防止脑裂的机制--ssh和shell脚本。

二、Hadoop集群的配置

打开hadoop的安装目录,如果还不会下载或者基础都不会使用的请看文章开头我提供的链接,请先学习基础配置。 我这里主要使用了5台虚拟机来模拟搭建这整个集群环境。

            主机名       IP地址                       主要功能

ubuntu1     192.168.44.128         namenode zkfc ResourceManager
ubuntu2     192.168.44.131         namenode zkfc ResourceManager
ubuntu3     192.168.44.132         DataNode、NodeManager、JournalNode、QuorumPeerMain
ubuntu4     192.168.44.133         DataNode、NodeManager、JournalNode、QuorumPeerMain

ubuntu5     192.168.44.134         DataNode、NodeManager、JournalNode、QuorumPeerMain

我们可以先来配置ubuntu1,然后剩下的就scp到其他机器上就可以了 

core-site.xml

<configuration>

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ns1/</value>
    </property>
    <!-- 指定hadoop临时目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/admin1/hadoop/HAhadoop/tmp/hadoop</value>
    </property>

    <!-- 指定zookeeper地址 -->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>ubuntu3:2181,ubuntu4:2181,ubuntu5:2181</value>
        </property>
</configuration>

hdfs-site.xml

<configuration>
					<!--指定hdfs的nameservice为ns1,需要和core-site.xml中的保持一致 -->
					<property>
						<name>dfs.nameservices</name>
						<value>ns1</value>
					</property>
					<!-- ns1下面有两个NameNode,分别是nn1,nn2 -->
					<property>
						<name>dfs.ha.namenodes.ns1</name>
						<value>nn1,nn2</value>
					</property>
					<!-- nn1的RPC通信地址 -->
					<property>
						<name>dfs.namenode.rpc-address.ns1.nn1</name>
						<value>ubuntu1:9000</value>
					</property>
					<!-- nn1的http通信地址 -->
					<property>
						<name>dfs.namenode.http-address.ns1.nn1</name>
						<value>ubuntu1:50070</value>
					</property>
					<!-- nn2的RPC通信地址 -->
					<property>
						<name>dfs.namenode.rpc-address.ns1.nn2</name>
						<value>ubuntu2:9000</value>
					</property>
					<!-- nn2的http通信地址 -->
					<property>
						<name>dfs.namenode.http-address.ns1.nn2</name>
						<value>ubuntu2:50070</value>
					</property>
					<!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
					<property>
						<name>dfs.namenode.shared.edits.dir</name>
						<value>qjournal://ubuntu3:8485;ubuntu4:8485;ubuntu5:8485/ns1</value>
					</property>
					<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
					<property>
						<name>dfs.journalnode.edits.dir</name>
						<value>/home/admin1/hadoop/HAhadoop/journaldata</value>
					</property>
					<!-- 开启NameNode失败自动切换 -->
					<property>
						<name>dfs.ha.automatic-failover.enabled</name>
						<value>true</value>
					</property>
					<!-- 配置失败自动切换实现方式 -->
					<property>
						<name>dfs.client.failover.proxy.provider.ns1</name>
						<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
					</property>
					<!-- 配置隔离机制方法,多个机制用换行分割,即每个机制暂用一行-->
					<property>
						<name>dfs.ha.fencing.methods</name>
						<value>
							sshfence
							shell(/bin/true)
						</value>
					</property>
					<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
					<property>
						<name>dfs.ha.fencing.ssh.private-key-files</name>
						<value>/home/admin1/.ssh/id_rsa</value>
					</property>
					<!-- 配置sshfence隔离机制超时时间 -->
					<property>
						<name>dfs.ha.fencing.ssh.connect-timeout</name>
						<value>30000</value>
					</property>
				</configuration>

mapred-site.xml

  <configuration>
                <!-- 指定mr框架为yarn方式 -->
               <property>
                   <name>mapreduce.framework.name</name>
                   <value>yarn</value>
               </property>
            </configuration>

yarn-site.xml

<configuration>

<!-- 开启RM高可用 -->
						<property>
						   <name>yarn.resourcemanager.ha.enabled</name>
						   <value>true</value>
						</property>
						<!-- 指定RM的cluster id -->
						<property>
						   <name>yarn.resourcemanager.cluster-id</name>
						   <value>yrc</value>
						</property>
						<!-- 指定RM的名字 -->
						<property>
						   <name>yarn.resourcemanager.ha.rm-ids</name>
						   <value>rm1,rm2</value>
						</property>
						<!-- 分别指定RM的地址 -->
						<property>
						   <name>yarn.resourcemanager.hostname.rm1</name>
						   <value>ubuntu1</value>
						</property>
						<property>
						   <name>yarn.resourcemanager.hostname.rm2</name>
						   <value>ubuntu2</value>
						</property>
						<!-- 指定zk集群地址 -->
						<property>
						   <name>yarn.resourcemanager.zk-address</name>
						   <value>ubuntu3:2181,ubuntu4:2181,ubuntu5:2181</value>
						</property>
						<property>
						   <name>yarn.nodemanager.aux-services</name>
						   <value>mapreduce_shuffle</value>
						</property>
				</configuration>

slaves

1 ubuntu3
2 ubuntu4
3 ubuntu5

还有就是修改一下主机名。 sudo vi /etc/hostname ubuntu1 以及hosts的内容:

192.168.44.128  ubuntu1
192.168.44.131  ubuntu2
192.168.44.132  ubuntu3
192.168.44.133  ubuntu4
192.168.44.134  ubuntu5
 

注意:一定要把原来的那两天127.0.1.1 这一条给删除掉,一个hosts文件中,不能出现主机名相同和ip地址不同的情况,我开始就是因为这个因为,折腾了很久,datanode就是搭建不起来。

三、启动HA的Hadoop过程

1、启动zookeeper集群 分别在ubuntu3,4,5中输入 开启服务: bin/zkServer.sh start 查看状态: bin/zkServer.sh status

2、启动journalnode 分别在ubuntu3,4,5中输入 sbin/hadoop-daemon.sh start journalnode 运行jps命令检验,多了JournalNode进程

3、格式化HDFS

  在ubuntu1上执行命令:
bin/hdfs namenode -format
#格式化后会在根据core-site.xml中的hadoop.tmp.dir配置生成个文件,这里我配置的是/HAhadoop/tmp,然后将/HAhadoop/tmp拷贝到ubuntu2的/HAhadoop/下。
  

scp -r tmp/ ubuntu2:/home/admin1/hadoop/HAhadoop/
 

4、格式化ZKFC(在ubuntu1上执行即可) bin/hdfs zkfc -formatZK

5、启动HDFS(在ubuntu1上执行) sbin/start-dfs.sh

6、启动YARN(在ubuntu1上执行) sbin/start-yarn.sh

如果是在ubuntu1中启动的话,那么默认的浏览窗口会是这样: ubuntu2是Active的,ubuntu1是一个Standby状态,


 

 
这个时候如果你去ubuntu2里面把这个namenode进程杀死的话,ubuntu1会自动切换为Active,ubuntu2会变成无法连接。

这样就实现了服务器的动态切换,这样万一有一个namenode宕机了,剩下了一台会自动切换。这种使用了zookeeper切换的就是前面说到的HA机制了。

当整个集群搭建完毕的效果就会是这样,如果用jps去查看一下:

在两个namenode节点上面会这样显示:

在剩下的3个datanode上面会这样:

可以通过访问ubuntu2:8088/Cluster来查看:活跃节点是3个

到这里整个集群环境就搭建完毕了,当然如果你电脑配置不是很高的话,可以选择把datanode直接放在namenode一起配置也可以。

时间: 2024-09-11 21:14:33

HA机制下的Hadoop配置的相关文章

Hadoop的HA机制

 Hadoop的HA机制 前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 1.1HA的运作机制 (1)hadoop-HA集群运作机制介绍 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA   (2)HDFS的HA机制详解 通过双namenode消除单点故障 双namenode协调工作的要点:     A.元数据管理方式需要改变:     内存中各自保存

HA模式下历史服务器配置

笔者的集群是 HA 模式的( HDFS 和 ResourceManager HA).在 " Hadoop-2.5.0-cdh5.3.2 HA 安装" 中详细讲解了关于 HA 模式的搭建,这里就不再赘述.但网上直接将关于 HA 模式下的历史服务器的配置资料却很少. 笔者在思考,如果配置在 mapred-site.xml 中就设置一台历史服务器,那么当这台机器挂了,那么能不能有另一台机器来承担历史服务器的责任,也就是笔者理想当然的 jobhistory server HA 模式.后面经过各自尝试,得

hadoop配置、运行错误总结

新手搞hadoop最头疼各种各样的问题了,我把自己遇到的问题以及解决办法大致整理一下先,希望对你们有所帮助. 一.hadoop集群在namenode格式化(bin/hadoop namenode -format)后重启集群会出现如下 (问题非常明显,基本无疑义) Incompatible namespaceIDS in ... :namenode namespaceID = ... ,datanode namespaceID=... 错误,原因是格式化namenode后会重新创建一个新的name

Linux服务器下搭建hadoop集群环境 redhat5/Ubuntu 12.04

Ubuntu 12.04 下搭建 hadoop 集群环境步骤 一. 搭建环境前的准备: 我的本机Ubuntu 12.04 32bit作为maser,就是上篇hadoop单机版环境搭建时用的那台机子,http://www.linuxidc.com/Linux/2013-01/78112.htm 还在KVM中虚拟了4台机子,分别起名为: son-1        (ubuntu 12.04 32bit),son-2        (ubuntu 12.04 32bit),son-3        (

虚拟机下构架hadoop测试跑wordcount报错,求大神帮帮忙.

问题描述 虚拟机下构架hadoop测试跑wordcount报错,求大神帮帮忙. 用虚拟机虚拟一台namenode,三台datanode,配置完成可以运行起来,也可以在网页中查看状态,但是跑wordcount时出现了task id:attempt_1441184180788_0001 status:failed的错误,也没有抛出,实在没有办法,具体问题截屏如下,望大神们给予帮助 解决方案 http://www.cnblogs.com/madyina/p/3708153.html 解决方案二: 几台

hadoop-windows下搭建Hadoop开发环境问题

问题描述 windows下搭建Hadoop开发环境问题 最近想学学hadoop 照着网上的帖子搭建个环境 但在执行 bin/hadoop namenode -format 命令时一直报错 hadoop版本:1.2.0 hadoop-env.sh中配置 export JAVA_HOME=/cygdrive/c/Java/jdk1.6.0_43 哪位高手给看看到底什么问题. 解决方案 将${HADOOP_HOME}/bin/hadoop-config.sh文件中的第190行的一下的内容 JAVA_P

Windows下安装Hadoop

Windows10下安装Hadoop2.6,Windows10下编译64位Hadoop2.x.详细记录了Windows10版本下对Hadoop的编译.安装步骤,以及相关包或者软件下载安装过程. 不需要在Cygwin下安装Hadoop,官方也不推荐使用Cygwin. Hadoop版本支持情况:Hadoop 2.2版本起包括Windows的原生支持.截至2014年一月份,官方的Apache Hadoop的版本不包括Windows二进制文件. Windows版本支持情况:Hadoop官方人员开发.测试

hadoop配置zookeeper,启动的时候namenode节点日志有异常

问题描述 hadoop配置zookeeper,启动的时候namenode节点日志有异常 hadoop搭建zookeeper,启动都正常,日志也没有报错,上传文件都好使,但是namenode有一个异常 2015-12-31 22:49:58,753 WARN org.apache.hadoop.hdfs.server.namenode.FSEditLog: Unable to determine input streams from QJM to [192.168.254.12:8485, 192

《Hadoop与大数据挖掘》一2.2 Hadoop配置及IDE配置

2.2 Hadoop配置及IDE配置 2.2.1 准备工作 相关软件及版本如表2-1所示. 在安装配置Hadoop集群前,需要先准备需要的机器.按照下面的顺序配置相关机器: 1)新建虚拟机master,安装Linux系统(本书使用的是CentOS 6.7 64位): 2)配置固定IP: 3)关闭防火墙: 4)安装必要软件: 5)克隆master到slave1.slave2.slave3: 6)修改slave1-slave3的IP,改为固定IP. 虚拟机参数配置如下. 1)master:1.5G-