141.4. 分布式安装(CentOS 6 + hadoop-1.1.2)

HDFS:
      NameNode  ：管理节点
      DataNode  ：数据节点
      SecondaryNamenode : 数据源信息备份整理节点

MapReduce
JobTracker ：任务管理节点
Tasktracker ：任务运行节点

141.4.1. 准备工作

准备4台服务器，操作系统为 Centos 6.4 最小化安装

NameNode   192.168.2.10 hostname namenode
DataNode    192.168.2.11 hostname:datanode1
DataNode    192.168.2.12 hostname:datanode2

JobTracker 192.168.2.10 (也可单独配置一台,也可以与NameNode公用，这里只用到了HDFS，这台可有可无，准备上面4台即可)
TaskTracker (与DataNode共用)

设置网络使其可以互访，然后关闭防火墙与selinux

# yum update -y
# lokkit --disabled --selinux=disabled

Hadoop 重要的端口

1.Job Tracker 管理界面： 50030
2.HDFS 管理界面： 50070
3.HDFS通信端口： 9000
4.MapReduce通信端口： 9001

过程 141.3. Hadoop - 准备工作

为所有服务器安装Java运行环境

以 CentOS 6.4 为例
```
# yum install java-1.7.0-openjdk
					
```

在所有服务器上安装 Hadoop

安装方案有下面两种 RPM与YUM，选择其中一种

# rpm -ivh http://ftp.cuhk.edu.hk/pub/packages/apache.org/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-1.x86_64.rpm
Retrieving http://ftp.cuhk.edu.hk/pub/packages/apache.org/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-1.x86_64.rpm
Preparing...                ########################################### [100%]
   1:hadoop                 ########################################### [100%]

yum localinstall http://ftp.cuhk.edu.hk/pub/packages/apache.org/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-1.x86_64.rpm

如果网络比较慢，可以使用Wget或axel下载后安装

wget http://ftp.cuhk.edu.hk/pub/packages/apache.org/hadoop/common/hadoop-1.1.2/hadoop-1.1.2-1.x86_64.rpm
yum localinstall hadoop-1.1.2-1.x86_64.rpm

Hadoop 用户

# cat /etc/passwd | grep Hadoop
mapred:x:202:123:Hadoop MapReduce:/tmp:/bin/bash
hdfs:x:201:123:Hadoop HDFS:/tmp:/bin/bash

配置/etc/hosts文件

cat >> /etc/hosts <<EOD

###############################
# Hadoop Host
###############################
#NameNode
192.168.2.10 	namenode.example.com

#DataNode
192.168.2.11 	datanode1.example.com
192.168.2.12 	datanode2.example.com

EOD

生成其密钥

# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
cc:6f:30:76:82:28:96:13:c8:e6:bc:d7:5b:2d:11:d7 root@images-upload
The key's randomart image is:
+--[ RSA 2048]----+
|                 |
|..        .      |
|.o.    . . E     |
|+  o . +o        |
| o= . ..S .      |
| ..o.  .o*       |
| . . . o .o      |
|  .   o ..       |
|     .           |
+-----------------+

植入公钥证书

向DataNode节点所有的服务器植入公钥证书

ssh-copy-id root@datanode1.example.com
ssh-copy-id root@datanode2.example.com

只需要输入yes后，再输入密码即可完成公钥证书的植入。过程类似下面：

# ssh-copy-id root@datanode1.example.com
The authenticity of host 'datanode1.example.com (192.168.2.11)' can't be established.
RSA key fingerprint is f1:0b:b1:63:1a:f6:ac:a3:da:4f:14:b5:f0:cc:df:67.
Are you sure you want to continue connecting (yes/no)? yes 输入yes
Warning: Permanently added 'datanode1.example.com' (RSA) to the list of known hosts.
root@datanode1.example.com's password: 输入密码
Now try logging into the machine, with "ssh 'root@datanode1.example.com'", and check in:

  .ssh/authorized_keys

to make sure we haven't added extra keys that you weren't expecting.

# ssh-copy-id root@datanode2.example.com
The authenticity of host 'datanode2.example.com (192.168.2.12)' can't be established.
RSA key fingerprint is f1:0b:b1:63:1a:f6:ac:a3:da:4f:14:b5:f0:cc:df:67.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'datanode2.example.com,192.168.2.12' (RSA) to the list of known hosts.
root@datanode2.example.com's password:
Now try logging into the machine, with "ssh 'root@datanode2.example.com'", and check in:

  .ssh/authorized_keys

to make sure we haven't added extra keys that you weren't expecting.

完成后测试登陆，如果没有提示密码直接进入表示正确

# ssh root@datanode1.example.com
# exit

141.4.2. NameNode 配置名称节点

配置文件

core-site.xml	 common属性配置
hdfs-site.xml    HDFS属性配置
mapred-site.xml  MapReduce属性配置
hadoop-env.sh    hadooop 环境变量配置

过程 141.4. Hadoop - NameNode

配置文件 hadoop-env.sh

将 /usr/java/default 改为 /usr

# cp hadoop-env.sh hadoop-env.sh.original
# sed -i "s:/usr/java/default:/usr:" hadoop-env.sh

配置文件 core-site.xml

# cp core-site.xml core-site.xml.original

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
         <name>fs.default.name</name>
         <value>hdfs://namenode.example.com:9000</value>
    </property>
    <property>
         <name>hadoop.tmp.dir</name>
         <value>/var/tmp/hadoop</value>
    </property>
</configuration>

fs.default.name: NameNode的URI。hdfs://主机名:端口/

hadoop.tmp.dir: Hadoop的默认临时路径，

配置文件 mapred-site.xml

# cp mapred-site.xml mapred-site.xml.original
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>namenode.example.com:9001</value>
    </property>
    <property>
        <name>mapred.local.dir</name>
        <value>/var/tmp/hadoop</value>
    </property>
</configuration>

mapred.job.tracker: JobTracker的主机和端口。

配置文件 hdfs-site.xml

# cp hdfs-site.xml hdfs-site.xml.original

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
        <name>dfs.name.dir</name>
        <value>/var/hadoop/name1</value>
        <description>  </description>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/var/hadoop/hdfs/data1</value>
        <description> </description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

dfs.name.dir: NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时，nametable数据将会被复制到所有目录中做冗余备份。
2）   dfs.data.dir是DataNode存放块数据的本地文件系统路径，逗号分割的列表。 当这个值是逗号分割的目录列表时，数据将被存储在所有目录下，通常分布在不同设备上。
3）dfs.replication是数据需要备份的数量，默认是3，如果此数大于集群的机器数会出错。

配置masters和slaves主从结点

备份masters与slaves配置文件

 cp masters masters.original
 cp slaves slaves.original

cat > /etc/hadoop/masters <<EOD
namenode.example.com
EOD

cat > /etc/hadoop/slaves <<EOD
datanode1.example.com
datanode2.example.com
EOD

复制配置文件

# cd /etc/hadoop/
# scp hadoop-env.sh core-site.xml mapred-site.xml hdfs-site.xml masters slaves root@datanode1.example.com:/etc/hadoop/
# scp hadoop-env.sh core-site.xml mapred-site.xml hdfs-site.xml masters slaves root@datanode2.example.com:/etc/hadoop/

控制台输出类似下面表示复制成功。

# scp hadoop-env.sh core-site.xml mapred-site.xml hdfs-site.xml masters slaves root@datanode1.example.com:/etc/hadoop/
hadoop-env.sh                                                                          100% 2116     2.1KB/s   00:00
core-site.xml                                                                          100%  412     0.4KB/s   00:00
mapred-site.xml                                                                        100%  406     0.4KB/s   00:00
hdfs-site.xml                                                                          100%  595     0.6KB/s   00:00
masters                                                                                100%   21     0.0KB/s   00:00
slaves

将 NameNode 上的配置文件复制给 DataNode

启动 Hadoop

创建工作目录

# mkdir /var/hadoop/
# mkdir /var/hadoop/name{1,2}
# su - hdfs -c  "mkdir -p  /var/hadoop/hdfs/data{1,2}"

# hadoop namenode -format
13/04/23 14:35:33 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = namenode.example.com/192.168.2.10
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 1.1.2
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.1 -r 1440782; compiled by 'hortonfo' on Thu Jan 31 02:06:43 UTC 2013
************************************************************/
Re-format filesystem in /var/hadoop/name1 ? (Y or N) Y
13/04/23 14:35:37 INFO util.GSet: VM type       = 64-bit
13/04/23 14:35:37 INFO util.GSet: 2% max memory = 2.475 MB
13/04/23 14:35:37 INFO util.GSet: capacity      = 2^18 = 262144 entries
13/04/23 14:35:37 INFO util.GSet: recommended=262144, actual=262144
13/04/23 14:35:37 INFO namenode.FSNamesystem: fsOwner=root
13/04/23 14:35:37 INFO namenode.FSNamesystem: supergroup=supergroup
13/04/23 14:35:37 INFO namenode.FSNamesystem: isPermissionEnabled=true
13/04/23 14:35:37 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100
13/04/23 14:35:37 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
13/04/23 14:35:38 INFO namenode.NameNode: Caching file names occuring more than 10 times
13/04/23 14:35:38 INFO common.Storage: Image file of size 110 saved in 0 seconds.
13/04/23 14:35:38 INFO namenode.FSEditLog: closing edit log: position=4, editlog=/var/hadoop/name1/current/edits
13/04/23 14:35:38 INFO namenode.FSEditLog: close success: truncate to 4, editlog=/var/hadoop/name1/current/edits
13/04/23 14:35:38 INFO common.Storage: Storage directory /var/hadoop/name1 has been successfully formatted.
13/04/23 14:35:38 INFO common.Storage: Image file of size 110 saved in 0 seconds.
13/04/23 14:35:38 INFO namenode.FSEditLog: closing edit log: position=4, editlog= /var/hadoop/name2/current/edits
13/04/23 14:35:38 INFO namenode.FSEditLog: close success: truncate to 4, editlog= /var/hadoop/name2/current/edits
13/04/23 14:35:38 INFO common.Storage: Storage directory  /var/hadoop/name2 has been successfully formatted.
13/04/23 14:35:38 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at namenode.example.com/192.168.2.10
************************************************************/

# chown hdfs:hadoop -R /var/hadoop

# /etc/init.d/hadoop-namenode start
# /etc/init.d/hadoop-datanode start

http://192.168.2.10:50070/

141.4.3. DataNode 配置数据节点

过程 141.5. Hadoop - DataNode

创建hadoop数据存储目录

mkdir /var/hadoop/
chown hdfs:hadoop -R /var/hadoop
su - hdfs -c  "mkdir -p  /var/hadoop/hdfs/data1"

启动 Hadoop
```
# /etc/init.d/hadoop-datanode start
```

141.4.4. Hadoop UI (WEB界面)

常用访问页面

1. HDFS 界面
        http://hostname:50070
2. MapReduce 管理界面
        http://hostname:50030

141.4.5. 测试Hadoop

将install.log文件拷贝到分布式文件系统

hadoop fs -mkdir test
hadoop fs -put install.log test

显示文件内容

# hadoop dfs -cat test/install.log

查看目录结构

# hadoop dfs -ls
Found 1 items
drwxr-xr-x   - root supergroup          0 2013-04-23 15:20 /user/root/test
[root@namenode ~]# hadoop dfs -ls test
Found 1 items
-rw-r--r--   2 root supergroup      10278 2013-04-23 15:20 /user/root/test/install.log

原文出处：Netkiller 系列手札
本文作者：陈景峯
转载请与作者联系，同时请务必标明文章原始出处和作者信息及本声明。

时间： 2024-09-25 22:41:35

141.4. 分布式安装(CentOS 6 + hadoop-1.1.2)的相关文章

141.3. 单机安装 CentOS 5 + hadoop-0.20.0

这种安装方式仅仅适用于做实验,快速搭建Hadoop环境,不适合生产环境. Ubuntu 环境 $ sudo apt-get install openjdk-7-jre 过程 141.1. Master configure Download and Installing Software $ cd /usr/local/src/ $ wget http://apache.etoak.com/hadoop/core/hadoop-0.20.0/hadoop-0.20.0.tar.gz $ tar z

centos 7下Hadoop 2.7.2 伪分布式安装

centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [lei@bogon ~]$ java -version openjdk version "1.8.0_65" OpenJDK Runtime Environment (build 1.8.0_65-b17) OpenJDK 64-Bit Server VM (build 25.65-b01,

基于CentOS的Hadoop分布式环境的搭建开发_Linux

首先,要说明的一点的是,我不想重复发明轮子.如果想要搭建Hadoop环境,网上有很多详细的步骤和命令代码,我不想再重复记录. 其次,我要说的是我也是新手,对于Hadoop也不是很熟悉.但是就是想实际搭建好环境,看看他的庐山真面目,还好,还好,最好看到了.当运行wordcount词频统计的时候,实在是感叹hadoop已经把分布式做的如此之好,即使没有分布式相关经验的人,也只需要做一些配置即可运行分布式集群环境. 好了,言归真传. 在搭建Hadoop环境中你要知道的一些事儿: 1.hadoop运行于

Hadoop学习之HBase的伪分布式安装

HBase的伪分布式安装 1. HBase单台机器上的安装 a) 使用winscp将win下的HBase软件(hbase-0.94.7-security.tar.gz)包复制到linux下的/usr/local/下 b) 解压文件hbase-0.94.7-security.tar.gz #tar -xzvf hbase-0.94.7-security.tar.gz 更名为hbase #mv hbase-0.94.7-security hbase c) 增加hbase的环境变量

利用Kickstart自动化安装CentOS的教程

前言因为需要在浪潮的x86服务器中集中部署CentOS搭建基于Hadoop的大数据平台,平时接触SLES(SuSE Linux Enterprise Server)较多并且已经实现基于Autoyast方式使用光盘或者PXE网络自动化安装(后续会分享具体实现方法).这次主要通过学习Kisckstart实现最简单的光盘方式自动化安装CentOS,而网上的大多数教程并不完全适用于自身的环境,本文将不再赘述Kickstart相关概念,细节可参考扩展阅读. Kickstart是最为通用的Linux自

《Hadoop实战第2版》——2.1节在Linux上安装与配置Hadoop

2.1 在Linux上安装与配置Hadoop 在Linux上安装Hadoop之前,需要先安装两个程序: 1)JDK 1.6(或更高版本).Hadoop是用Java编写的程序,Hadoop的编译及MapReduce的运行都需要使用JDK.因此在安装Hadoop前,必须安装JDK 1.6或更高版本. 2)SSH(安全外壳协议),推荐安装OpenSSH.Hadoop需要通过SSH来启动Slave列表中各台主机的守护进程,因此SSH也是必须安装的,即使是安装伪分布式版本(因为Hadoop并没有区分开集群

基于Kickstart自动化安装CentOS实践

基于Kickstart自动化安装CentOS实践前言因为需要在浪潮的x86服务器中集中部署CentOS搭建基于Hadoop的大数据平台,平时接触SLES(SuSE Linux Enterprise Server)较多并且已经实现基于Autoyast方式使用光盘或者PXE网络自动化安装(后续会分享具体实现方法).这次主要通过学习Kisckstart实现最简单的光盘方式自动化安装CentOS,而网上的大多数教程并不完全适用于自身的环境,本文将不再赘述Kickstart相关概念,细节可参考扩展阅读

《Hadoop实战第2版》——2.4节安装和配置Hadoop集群

2.4 安装和配置Hadoop集群 2.4.1 网络拓扑通常来说,一个Hadoop的集群体系结构由两层网络拓扑组成,如图2-3所示.结合实际应用来看,每个机架中会有30~40台机器,这些机器共享一个1GB带宽的网络交换机.在所有的机架之上还有一个核心交换机或路由器,通常来说其网络交换能力为1GB或更高.可以很明显地看出,同一个机架中机器节点之间的带宽资源肯定要比不同机架中机器节点间丰富.这也是Hadoop随后设计数据读写分发策略要考虑的一个重要因素. 2.4.2 定义集群拓扑在实际应用中,为

HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系

HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,HBase的安装到数据库表的操作.包含内容1.HBase单例安装2.HBase伪分布式安装(基于Hadoop的HDFS)过程,3.HBase的shell编程,对HBase表的创建,删除等的命令,HBase对数据的增删查等操作.4.简单概述了Hbase的架构体系.5.zookeeper的单例安装和常用操