《Hadoop大数据分析与挖掘实战》——2.2节安装与配置

2.2 安装与配置
使用表2-1中的软件版本进行配置。

2.准备机器
通过VMware新建一台CentOS 6.4虚拟机,操作系统安装完成后,使用root用户登录,添加一个新用户hadoop。设置hadoop用户的密码并授予hadoop用户sudo权限。

\[root@localhost ~\]$useradd hadoop
\[root@localhost ~\]$passwd hadoop
\[root@localhost ~\]$chmod u+w /etc/sudoers
\[root@localhost ~\]$vim /etc/sudoers
# 在root ALL=(ALL) ALL 下添加hadoop ALL=(ALL) ALL
\[root@localhost ~\]$chmod u-w /etc/sudoers3.设置静态IP
VMware默认使用动态的IP,但是由于Hadoop集群是使用机器名进行定位的,在/etc/hosts中配置了机器名和IP的映射,如果IP不断变化,则需要不断修改配置文件,所以这里需要把IP设置为静态,方便后面的操作。
1)修改/etc/sysconfig/network-scripts/ifcfg-eth0。\[root@localhost ~\]$vim /etc/sysconfig/network-scripts/ifcfg-eth0
# 修改内容如下:
DEVICE=eth0
BOOTPROTO=static
IPADDR=192.168.222.131
NETMASK=255.255.255.0
GATEWAY=192.168.222.2
# HWADDR=00:0C:29:C3:34:BF # 这个需要根据自己的机器进行设置
ONBOOT=yes
TYPE=Ethernet
IPV6INIT=no
DNS1=192.168.222.22)修改/etc/sysconfig/network。\[root@localhost ~\]$vim /etc/sysconfig/network
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME=localhost.localdomain
GATEWAY=192.168.222.23)修改DNS信息。\[root@localhost ~\]$vim/etc/resolv.conf
nameserver 192.168.222.2
search bogon
#使配置信息立即生效
\[root@localhost ~\]$source /etc/resolv.conf
#重启网络服务
\[root@localhost ~\]$service network restart4)关闭防火墙并修改其启动策略为不开机启动。\[root@localhost ~\]$service iptables stop
#防火墙不开机启动
\[root@localhost ~\]$chkconfig iptables off4.安装JDK
1)使用yum search jdk在线查找jdk列表,任意选择一个版本进行安装,这里安装“java-1.7.0-openjdk-devel.x86_64”。\[root@localhost ~\]$yum search jdk
\[root@localhost ~\]$yum install java-1.7.0-openjdk-devel.x86_64 -y2)配置Java环境变量。# 查询JDK路径
\[root@localhost ~\]$whereis java
\[root@localhost ~\]$ll /usr/bin/java
\[root@localhost ~\]$ll /etc/alternatives/java #这是可以看到JDK路径了
#修改配置文件
\[root@localhost ~\]$vim /etc/profile
#在末尾追加
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.75.x86_64
export MAVEN_HOME=/home/hadoop/local/opt/apache-maven-3.3.1
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$MAVEN_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#保存配置后使用source命令是配置立即生效
\[root@localhost ~\]$source /etc/profile3)使用java -version命令查看环境变量配置是否成功。\[root@localhost ~\]$java -version
OpenJDK Runtime Environment (rhel-2.5.4.0.el6_6-x86_64 u75-b13)
OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode)

至此,完成JDK的安装和配置,接下来使用VMware克隆两台机器,并分别设置静态IP地址为192.168.222.132,192.168.222.133,如图2-3和图2-4所示。

克隆完成,启动机器后,会出现没有网络设备信息,无法连接网络的情况,解决方案如下:
删除/etc/udev/rules.d/70-persistent-net.rules,修改/etc/sysconfig/network-scripts/ifcfg-eth0,注释硬件地址那一行,重启系统。
5.配置ssh免登录
1)启动三台机器,分别修改机器名为master、slave1、slave2,重启系统。[root@localhost ~]$vim /etc/sysconfig/network

# 修改内容如下
NETWORKING=yes
NETWORKING_IPV6=no
HOSTNAME=master2)修改master上的/etc/hosts。\[hadoop@master ~\]$sudo vim /etc/hosts
# 内容如下
192.168.222.131 master
192.168.222.132 slave1
192.168.222.133 slave23)将hosts文件复制到slave1和slave2。\[hadoop@master ~\]$sudo scp /etc/hosts root@slave1:/etc
\[hadoop@master ~\]$sudo scp /etc/hosts root@slave2:/etc4)在master机器上使用hadoop用户登录(确保接下来的操作都是通过hadoop用户执行)。执行$ssh-keygen -t rsa命令产生公钥。\[hadoop@master ~\]$ssh-keygen -t rsa
Generating public/private rsa key pair.
 Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):
 Enter passphrase (empty for no passphrase):
 Enter same passphrase again:
 Your identification has been saved in /home/hadoop/.ssh/id_rsa.
 Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
 The key fingerprint is:
 7b:75:98:eb:fd:13:ce:0f:c4:cf:2c:65:cc:73:70:53 hadoop@master
 The key's randomart image is:
 +--\[ RSA 2048\]----+
| E|
 | .|
 | ...|
 | +=.|
 | S ++.*|
 | . . + Bo|
 | . . . ==|
 | . . . * |
 | . ..=|
 +-----------------+5)将公钥复制到slave1和slave2。\[hadoop@master ~\]$ssh-copy-id -i ~/.ssh/id_rsa.pub slave1
# 输入hadoop@slave1的密码
\[hadoop@master ~\]$ssh-copy-id -i ~/.ssh/id_rsa.pub slave2
# 输入hadoop@slave2的密码6)再次登录,已经可以不需要密码可以登录slave1,slave2。\[hadoop@master ~\]$ssh slave1
Last login: Wed Mar 25 14:40:41 2015 from master
\[hadoop@slave1 ~\]$6.安装Hadoop
1)在Hadoop官网网站,下载稳定版的并且已经编译好的二进制包,并解压缩。\[hadoop@master ~\]$wget  http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
\[hadoop@master ~\]$tar -zxf hadoop-2.6.0.tar.gz -C ~/local/opt
\[hadoop@master ~\]$cd ~/local/opt/hadoop-2.6.02)设置环境变量:\[hadoop@master ~\]$vim ~/.bashrc
export HADOOP_PREFIX=$HOME/local/opt/hadoop-2.6.0
export HADOOP_COMMON_HOME=$HADOOP_PREFIX
export HADOOP_HDFS_HOME=$HADOOP_PREFIX
export HADOOP_MAPRED_HOME=$HADOOP_PREFIX
export HADOOP_YARN_HOME=$HADOOP_PREFIX
export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop
export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin3)修改配置文件(etc/hadoop/hadoop-env.sh),添加下面的命令(这里需要注意JAVA_HOME的设置需要根据自己机器的实际情况进行设置):export JAVA_HOME=/usr/lib/jvm/java4)修改配置文件(etc/hadoop/core-site.xml),内容如下:<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/local/var/hadoop/tmp/hadoop-${user.name}</value>
</property>
</configuration>5)修改配置文件(etc/hadoop/hdfs-site.xml),内容如下:<configuration>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/hadoop/local/var/hadoop/hdfs/datanode</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/local/var/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.namenode.checkpoint.dir</name>
<value>file:///home/hadoop/local/var/hadoop/hdfs/namesecondary</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>6)修改配置文件(etc/hadoop/yarn-site.xml),内容如下:<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>7)修改配置文件(etc/hadoop/mapred-site.xml),内容如下:<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobtracker.staging.root.dir</name>
<value>/user</value>
</property>
</configuration>8)格式化HDFS:\[hadoop@master ~\]$hdfs namenode -format9)启动hadoop集群,启动结束后使用jps命令列出守护进程验证安装是否成功。#启动HDFS
\[hadoop@master ~\]$start-dfs.sh
#启动Yarn
\[hadoop@master ~\]$start-yarn.sh
# master主节点:
\[hadoop@master ~\]$jps
3717 SecondaryNameNode
3855 ResourceManager
3539 NameNode
3903 JobHistoryServer
4169 Jps
#slave1节点
\[hadoop@slave1 ~\]$jps
2969 Jps
2683 DataNode
2789 NodeManager
# slave2 节点
\[hadoop@slave2 ~\]$jps
2614 Jps
2363 DataNode
2470 NodeManager
时间: 2024-09-15 00:22:07

《Hadoop大数据分析与挖掘实战》——2.2节安装与配置的相关文章

《Hadoop大数据分析与挖掘实战》——导读

目 录 前 言 基 础 篇 第1章 数据挖掘基础 1.1 某知名连锁餐饮企业的困惑 1.2 从餐饮服务到数据挖掘 1.3 数据挖掘的基本任务 1.4 数据挖掘建模过程 1.5 餐饮服务中的大数据应用 1.6 小结第2章 Hadoop基础 2.1 概述 2.2 安装与配置 2.3 Hadoop原理 2.4 动手实践 2.5 小结 第3章 Hadoop生态系统:Hive 3.1 概述 3.2 Hive原理 3.3 动手实践 3.4 小结 第4章 Hadoop生态系统:HBase 4.1 概述 4.2

《Hadoop大数据分析与挖掘实战》——1.4节数据挖掘建模过程

1.4 数据挖掘建模过程从本节开始,将以餐饮行业的数据挖掘应用为例来详细介绍数据挖掘的建模过程,如图1-1所示. 1.4.1 定义挖掘目标针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能达到什么样的效果?因此必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求.要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么. 针对餐饮行业的数据挖掘应用,可定义如下挖掘目标:实现动态菜品智能推荐,帮助顾客快速

《Hadoop大数据分析与挖掘实战》——2.5节小结

2.5 小结本章从介绍大数据基础概念讲起,引入了Hadoop大数据处理平台,简要介绍了Hadoop以及Hadoop生态系统.接着,详细介绍了使用VMware虚拟机搭建分布式Hadoop集群环境的步骤,使读者可以根据搭建步骤一步步来搭建自己的集群,方便后面的学习实验.然后,介绍了Hadoop的各个模块,包括Hadoop HDFS文件系统.Hadoop MapReduce编程框架.Hadoop YARN资源管理和分配器的原理.最后,给出了详细设计的实验,可以使读者在了解原理的前提下,动手实践,加深对

《Hadoop大数据分析与挖掘实战》——2.1节概述

2.1 概述2.1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.Hadoop以分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce(Google MapReduce的开源实现)为核心,为用户提供了系统底层细节透明的分布式基础架构.分布式文件系统HDFS的高容错性.高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式文件系统:MapReduce分布式编程模型允许用户在不了解分布式系统底层

《Hadoop大数据分析与挖掘实战》——第2章Hadoop基础

第2章 Hadoop基础 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合.大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储系统. 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理.大数据的主要特点为数据量大(Volume),数据类别复

《Hadoop大数据分析与挖掘实战》——2.3节Hadoop原理

2.3 Hadoop原理2.3.1 Hadoop HDFS原理 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点,同时,它和其他的分布式文件系统的区别也是很明显的.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用.HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的.HDFS最开始是作为Apache

《Hadoop大数据分析与挖掘实战》——1.6节小结

1.6 小结本章从一个知名餐饮企业经营过程中存在的困惑出发,引出数据挖掘的概念.基本任务.建模过程.针对建模过程,简要分析了定义挖掘目标.数据取样.数据探索.数据预处理以及挖掘建模的各个算法概述和模型评价.最后,针对餐饮企业规模的日益扩大,企业数据的巨幅增长,引出了餐饮服务中的大数据应用.如何帮助企业从数据中洞察商机,提取价值,这是现阶段几乎所有企业都关心的问题.通过发生在身边案例,由浅入深引出深奥的数据挖掘理论,让读者在不知不觉中感悟到数据挖掘的非凡魅力!

《Hadoop大数据分析与挖掘实战》——3.3节动手实践

3.3 动手实践按照3.1.2节以及第2章的详细配置步骤进行操作,部署完成后即可进行下面的实验(默认使用Hadoop 2.6和Hive 1.2.1版本).实践一:Hive表1)下载"02-上机实验/visits_data.txt"文件,并查看数据. \[root@slave2 opt\]# head -n 5 visits_data.txt BUCKLEY SUMMER 10/12/2010 14:48 10/12/2010 14:45 WH CLOONEYGEORGE10/12/20

《Hadoop大数据分析与挖掘实战》——3.4节小结

3.4 小结本章先介绍大数据仓库Hive的基础概念,接着,详细介绍了使用VMware虚拟机搭建分布式Hive客户端环境的步骤,使读者可以根据搭建步骤一步步搭建自己的本地学习环境,方便后面的学习实验.然后,分析了Hive的原理,主要包括Hive的架构,Hive各个组件的功能以及Hive数据模型.数据存储原理等.最后,给出了详细设计的实验,使读者动手实践,加深对原理的认识和理解.