Hadoop伪分布式搭建操作步骤指南

一、准备工作

在 /opt/目录下创建文件夹modules，和softwares
- 修改操作权限(切换至root用户下)

chown -R wxt:wxt /opt/

然后切换至普通用户

mkdir softwares
mkdir modules

安装lrzsz (在linux里可代替ftp上传和下载。)

首先安装lrzsz

yum -y install lrzsz

上传文件，执行命令rz，会跳出文件选择窗口，选择好文件，点击确认即可。

下载文件，执行命令sz

二、Hadoop环境部署-JDK部分

上传jdk 至softwares

解压jdk 至modules
- tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/

修改环境变量
- 切换至 root 用户修改 vi /etc/profile 文件，配置jdk环境变量

#JAVA_HOME
export JAVA_HOME=/opt/modules/jdk1.7.0_67
export PATH=$PATH:$JAVA_HOME/bin

source /etc/profile 使文件生效
验证是否配置成功
- java -version

java version "1.7.0_09-icedtea"
OpenJDK Runtime Environment (rhel-2.3.4.1.el6_3-x86_64)
OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode)

jps命令可以查看java 进程
echo $JAVA_HOME

三、Hadoop伪分布式环境部署-Hadoop部分

上传文件hadoop-2.5.0.tar.gz，至softwares
解压文件至modules
- tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules/

清理Hadoop的目录，将hadoop/share/doc目录删除，节省磁盘空间，通过这个命令查看df -h

修改hadoop/etc/hadoop/hadoop-env.sh文件
修改hadoop/etc/hadoop/mapred-env.sh文件
修改hadoop/etc/hadoop/yarn-env.sh文件
指定Java安装路径
- export JAVA_HOME=/opt/modules/jdk1.7.0_67

注意：
- Hadoop中的四个核心模块对应四个默认配置文件
- HDFS,Hadoop默认的文件系统,是文件系统的访问入口
- Namenode,所在的机器9000端口是早期Hadoop 1.x使用的，现在 Hadoop 2.x使用的是8020端口号用于节点直接内部通信，使用RPC通信机制

修改hadoop/etc/hadoop/core-site.xml文件

<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata-4:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.5.0/data/tmp</value>
</property>

注意：
- /tmp表示临时存储目录，系统每次重启会按照脚本预先设置好的删除里面的文件重新自定义系统生成的文件路径，/tmp会被清空，无法保证数据文件安全性。

修改hadoop/etc/hadoop/hdfs-site.xml文件
- 指定HDFS文件存储的副本数个数，默认是3个，这里是单台机器就设置为1，这个数字要小于datanode的节点数。

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

修改hadoop/etc/hadoop/slaves文件
- 指定从节点的机器位置，添加主机名即可

bigdata-4

格式化namenode

bin/hdfs namenode -format

10.

启动命令
- sbin/hadoop-daemon.sh start namenode
- sbin/hadoop-daemon.sh start datanode

11.

查看HDFS外部UI界面
- bigdata-04或者IP地址跟上50070端口号，外部通信http dfs.namenode.http-address 50070
- http://bigdata-4:50070 (如果windows本地没有配置hosts,需要配置)
- 如果不能正确打开页面，请检查防火墙是否关闭
  - 切换至root 用户，service iptables status
  - 关闭防火墙 chkconfig iptables off

12.

测试HDFS环境
- 创建文件夹，HDFS中有用户主目录的概念，和Linux一样
- bin/hdfs dfs -mkdir -p wxt_test/iuput

13.

上传文件到HDFS(随便找一个文件上传就行)
- bin/hdfs dfs -put /opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xml wxt_test/input/core-site.xml
- 上传成功，HDFS外部UI界面，会有上传的文件显示

14.

读取HDFS的文件
- bin/hdfs dfs -text /core-site.xml
- 终端会显示上传文件的内容。

15.

下载文件到本地(指定下载到哪里，同时可以重命名成get-site.xml)bin/hdfs dfs -get /core-site.xml /home/wxt/Desktop/get-site.xml然后你会看到这个文件，并且重命名于桌面。

Hadoop 伪分布式搭建至此结束。

原文发布时间为：2017-10-25

本文作者：imxintian

本文来自合作伙伴“51CTO”，了解相关信息可以关注。

时间： 2024-12-31 22:58:32

Hadoop伪分布式搭建操作步骤指南的相关文章

大数据-hadoop伪分布式环境搭建

问题描述 hadoop伪分布式环境搭建最近开始新学hadoop,想搭建个伪分布式环境,而自己的电脑配置不高,不能运行虚拟机,可以利用阿里云来搭建伪分布式运行环境吗? 解决方案阿里云搞几台机器在一个局域网就可以搭建或者用单机模式解决方案二: 嗯,单机模式是不是不用装虚拟机

1:Vmware虚拟软件里面安装好Ubuntu操作系统之后使用ifconfig命令查看一下ip; 2:使用Xsheel软件远程链接自己的虚拟机,方便操作.输入自己ubuntu操作系统的账号密码之后就链接成功了: 3:修改主机的名称vi /etc/hostname和域名和主机映射对应的关系 vi /etc/hosts,改过之后即生效,自己可以ping一下,我这里ip对应master,比如ping master之后发现可以ping通即可: (centos操作系统修改主机名命令:vi /etc/sy

Hadoop完全分布式模式安装步骤

Hadoop模式介绍单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途伪分布模式:在单节点上同时启动http://www.aliyun.com/zixun/aggregation/11696.html">namenode.datanode.jobtracker.tasktracker.secondary namenode等5个进程,模拟分布式运行的各个节点完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成安装环境操作平台:vmware2 操作系统:Oracle

hadoop伪分布式安装方法

接触Hadoop也快两年了,也一直没自己总结过安装教程,最近又要用hadoop,需要自己搭建一个集群来进行试验,所以就利用这个机会来写个教程以备以后自己使用,也用来和大家一起探讨. 要安装Hadoop先安装其辅助环境 java Ubuntu下java的安装与配置将java安装在指定路径方便以后查找使用. Java安装 1)在/home/xx(也就是当前用户)目录下,新建java1.xx文件夹:mkdir /home/xx/java1.xx(文件名上表明版本号,方便日后了解java版本) 2)进

Hadoop 2.x伪分布式环境搭建详细步骤_数据库其它

本文以图文结合的方式详细介绍了Hadoop 2.x伪分布式环境搭建的全过程,供大家参考,具体内容如下 1.修改hadoop-env.sh.yarn-env.sh.mapred-env.sh 方法:使用notepad++(beifeng用户)打开这三个文件添加代码:export JAVA_HOME=/opt/modules/jdk1.7.0_67 2.修改core-site.xml.hdfs-site.xml.yarn-site.xml.mapred-site.xml配置文件 1)修改core-

Hadoop手把手逐级搭建,从单机伪分布到高可用+联邦(2)Hadoop完全分布式(full)

第二阶段: Hadoop完全分布式(full) 0. 步骤概述 1). 克隆4台虚拟机 2). 为完全分布式配置ssh免密 3). 将hadoop配置修改为完全分布式 4). 启动完全分布式集群 5). 在完全分布式集群上测试wordcount程序 1. 克隆4台虚拟机 1.1 使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop4 1.1.0 克隆虚拟机hadoop1 1.1.1 右键点击当前虚拟机hadoop0 1.1.2 在右键菜单选中"管理&quo

centos 7下Hadoop 2.7.2 伪分布式安装

centos 7 下Hadoop 2.7.2 伪分布式安装,安装jdk,免密匙登录,配置mapreduce,配置YARN.详细步骤如下: 1.0 安装JDK 1.1 查看是否安装了openjdk [lei@bogon ~]$ java -version openjdk version "1.8.0_65" OpenJDK Runtime Environment (build 1.8.0_65-b17) OpenJDK 64-Bit Server VM (build 25.65-b01,

配置单节点伪分布式Hadoop

先写的这一篇,很多东西没再重复写. 一.所需软件 jdk和ubuntu都是32位的. 二.安装JDK 1.建jdk文件夹 cd usr sudo mkdir javajdk 2.移动mv或者复制cp安装包 //进入桌面 cd home/hxsyl/DeskTop sudo mv /usr/javajdk 3.安装 //切换到root下 //如果忘记密码,先 sudo passwd //直接会让你输入新密码,不需要输入原来的密码 //到jdk目录下 ./jdk-6u30-linux-i586.bi

单节点伪分布式spark安装

问题描述单节点伪分布式spark安装 wordcount.take()括号中的参数怎么确定??? 解决方案安装单节点伪分布式 CDH hadoop 集群Linux下单节点Hadoop伪分布式安装单节点伪分布式hadoop的安装与配置