Hadoop 2.x 集群环境搭建

======================================================
基础环境设置,以CentOS7为例:

1.配置/etc/sysconfig/network-scripts/ifcfg-ens33 绑定ip
2.配置主机名ip解析,编辑 /etc/hosts
3.修改主机名,编辑/etc/sysconfig/network ,添加一行

HOSTNAME=hostname

4.关闭iptables,selinux,firewalld
5.安装jdk,配置$JAVA_HOME
6.解压hadoop2.x 至/opt/app下,配置$HADOOP_HOME
7.所有主机之间设置ssh免验证登陆,包括本机自己ssh也要配置 (3台机器都有同一个用户,beifeng)

========================================================
hadoop 2.x 分布式部署方案

HOSTNAME IPADDR HDFS YARN MAPREDUCE

hadoop-master 192.168.1.129 NameNode,DataNode NodeManager Job_History_server
hadoop-slave1 192.168.1.130 DataNode ResourceManager,NodeManager
hadoop-slave2 192.168.1.131 SecondaryNameNode,DataNode NodeManager

==========================================================
hadoop 2.x 各守护进程相关配置文件

hdfs:

hadoop-env.sh   -->   配置$JAVA_HOME
core-site.xml   -->   配置NameNode节点(fs.defaultFS)
                      配置Hadoop的临时目录(tmp.dir)
hdfs-site.xml    -->      配置SecondaryNameNode(dfs.namenode.secondary.http-address)
slaves            -->      配置DataNode节点的ip/hostname

yarn:

yarn-env.sh     -->   配置$JAVA_HOME
yarn-site.xml   -->      配置ResourceManager节点
                      配置日志聚集(yarn.log-aggregetion-enable)
                      配置MapReduce的shuffle(yarn.nodemanager.aux-services----mapreduce_shuffle )
slaves            -->      配置NodeManager节点的ip/hostname

mapreduce:

mapred-site.xml -->   配置job history
                      配置在yarn上运行mapreduce
                     

===============================================================
在hadoop-master节点配置hdfs、yarn及mapreduce

1.配置hdfs
(一般配置好javahome不用再配置hadoop-env.sh)
a.$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-master:8020</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>
</property>

</configuration>

b.$HADOOP_HOME/etc/hadoop/hdfs-site.xml

不需要配置分片

dfs.namenode.secondary.http-address
http://hadoop-slave2:50090

c.$HADOOP_HOME/etc/hadoop/slaves

同时配置了NodeManager的节点地址

hadoop-master
hadoop-slave1
hadoop-slave2

2.配置yarn

a.yarn-site.xml


<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop-slave1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>640800</value>
</property>

3.配置MapReduce

a.mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop-master:10020</value>
</property>

<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop-master:19888</value>
</property>

======================================================================

拷贝hadoop到hadoop-slave1,slave2

scp -r $HADOOP_HOME hadoop-slave1:/opt/app
scp -r $HADOOP_HOME hadoop-slave2:/opt/app

========================================================================
启动hadoop 集群

1.在hadoop-master上首次初始格式化namenode节点

hdfs namenode -format

2.启动hdfs集群

start-dfs.sh

3.启动yarn集群

start-yarn.sh

4.启动job-history server

mr-jobhistory-daemon.sh start historyserver

5.各节点查看运行状态

jps

===================================================================

END

时间: 2024-10-21 20:41:33

Hadoop 2.x 集群环境搭建的相关文章

Hadoop学习之HBase的集群环境搭建

HBase的集群环境搭建 该集成环境是在伪分布搭建的基础上搭建 1.   修改原来的伪分布hadoop1上的hbase的配置文件 #cd /usr/local/hbase/conf/ 待修改的文件:hbase-env.sh.hbase-site.xml.regionservers #vim hbase-env.sh 使用搭建的zookeeper集群环境,因此hbase自带的zookeeper设置为false,不启动. #vim hbase-site.xml 将zookeeper集群所在的主机名,

一:Storm集群环境搭建

第一:storm集群环境准备及部署[1]硬件环境准备--->机器数量>=3--->网卡>=1--->内存:尽可能大--->硬盘:无额外需求[2]软件环境准备--->CentOS-6.0-x86_64系统环境--->三台地址--->zookeeper和storm公用物理环境   第二:节点环境查看 第三:节点之间用ip-->别名绑定/etc/hosts,然后用ping 别名 进行测试 第四:zookeeper集群环境搭建第五:Storm集群环境搭建

hadoop集群环境搭建

1 hadoop集群规划 1.1 共有A.B.C 三台机器; 1.2 A 作为master,B作为slave1,C作为slave2; 1.3 IP &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;A :192.168.1.103;B:192.168.1.104;C:192.168.1.101; 1.4 OS:centos6.2(64bit) 2 hadoop集群搭建步骤 2.1 创建 hadoop用户,并使该用户拥

spark1.6分布式集群环境搭建

1. 概述 本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群.   2. 安装环境 本安装说明的示例环境部署如下: IP 外网IP hostname 备注 10.47.110.38 120.27.153.137 iZ237654q6qZ Master.Slaver 10.24.35.51 114.55.56.190 iZ23pd81xqaZ Slaver 10.45.53.136 114.55.11.55 iZ23mr5ukp

apache+3tomcat+jk+memcached集群环境搭建

注意本文不讨论原理,只讲述具体的搭建过程,而且步骤都经过了整理,否则过程可能会出现其他异常,请自行google.apache与tomcat整合的方式除了jk之外,使用apache自带的mod_ajp_proxy模块也可以很方便的完成. 先来看一下架构图: 属于正式环境中原session复制方案的改进. 1. 所需软件包 jrrt-3.1.2-1.6.0-linux-x64.bin(或jdk1.6.0_33) jvm httpd-2.2.26.tar.gz web服务器,处理静态资源 apache

《Hadoop MapReduce实战手册》一第1章 搭建Hadoop并在集群中运行

第1章 搭建Hadoop并在集群中运行 Hadoop MapReduce实战手册本章将学习以下内容: 在你的机器上安装Hadoop 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它 给WordCountMapReduce程序增加combiner步骤 安装HDFS 使用HDFS监控UI HDFS的基本命令行文件操作 在分布式集群环境中设置Hadoop 在分布式集群环境中运行WordCount程序 使用MapReduce监控UI

《循序渐进学Spark 》Spark架构与集群环境

Spark架构与集群环境 本章首先介绍Spark大数据处理框架的基本概念,然后介绍Spark生态系统的主要组成部分,包括Spark SQL.Spark Streaming.MLlib和GraphX,接着简要描述了Spark的架构,便于读者认识和把握,最后描述了Spark集群环境搭建及Spark开发环境的构建方法. 1.1 Spark概述与架构 随着互联网规模的爆发式增长,不断增加的数据量要求应用程序能够延伸到更大的集群中去计算.与单台机器计算不同,集群计算引发了几个关键问题,如集群计算资源的共享

Ubuntu 下 Neo4j单机安装和集群环境安装

1. Neo4j简介 Neo4j是一个用Java实现的.高性能的.NoSQL图形数据库.Neo4j 使用图(graph)相关的概念来描述数据模型,通过图中的节点和节点的关系来建模.Neo4j完全兼容ACID的事务性.Neo4j以"节点空间"来表 达领域数据,相对于传统的关系型数据库的表.行和列来说,节点空间可以更好地存储由节点关系和属性构成的网络,如社交网络,朋友圈等. 2 neo4j版本介绍 neo4j版本种类比较多,有开源的社区版本,也有企业版本.其中社区版本包括了很多neo4j的

hadoop集群环境的搭建

       今天终于把hadoop集群环境给搭建起来了,能够运行单词统计的示例程序了. 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Hadoop安装目录 master Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名:hadoop. 安装hadoop-0.20.2时使用hadoop用户,并且hadoop的文件夹归属也是hadoop: