hadoop 平台搭建

问题描述

Hadoop的下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/core/版本:hadoop0.17.1JDK的安装:要求必须安装jdk1.5.07以上的版本。分步式环境的搭建:1、硬件环境我们采用了3台机器来构建,都安装的是RedHat4.1.2-42系统,并且都有一个名为“mingjie“的帐号,如下:主机名称:hdfs1ip:192.168.0.221功能:NameNode,JobTracker主机名称:hdfs2ip:192.168.0.227功能:DataNode,TaskTracker主机名称:hdfs3ip:192.168.0.228功能:DataNode,TaskTracker重点:修改3台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析127.0.0.1localhost192.168.0.37hdfs1192.168.0.43hdfs2192.168.0.53hdfs32、每台机器都要安装java环境,我们的路径统一为“/opt/modules/jdk1.6“,并添加到系统环境变量sudovi/etc/profileJAVA_HOME=/opt/modules/jdk1.6PATH=$JAVA_HOME/bin:$PATH:$CATALINA_HOME/binCLASSPATH=$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/tools.jarexportJAVA_HOME3、下载hadoop0.17.1,将hadoop解压到/home/mingjie/,建议最好也将hadoop的目录添加到环境变量里面去:HADOOP_HOME=/home/mingjie/hadoop-0.17.1#这是hadoop的主目录exportHADOOP_HOMEHADOOP_CONF_DIR=$HADOOP_HOME/conf#这是hadoop的配置文件目录exportHADOOP_CONF_DIRHADOOP_LOG_DIR=/home/mingjie/hadoop-0.17.1/log#存放运行日志目录exportHADOOP_LOG_DIRexportPATH=$PATH:$HADOOP_HOME/bin4、安装ssh,并生成公钥和私钥运行ssh-keygen-trsa,根据屏幕提示直接选择“回车”会在用户目录~/.ssh/产生两个文件,id_rsa,id_rsa.pubcat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keys以上配置完成后,执行一下sshlocalhsot,确认你的每台机器都可以使用ssh5、将master服务器上的authorized_keys的内容加到slave两台机器的authorized_keys文件中。让master也可以不需要密码访问2台slave服务器。sudoscpauthorized_keyshdfs2:/home/mingjie/.ssh/sudoscpauthorized_keyshdfs3:/home/mingjie/.ssh/sshhdfs2sshhdfs36、接下来,我们要修改hadoop的[conf/masters]、[conf/slaves]这2个文件:Master设置(<HADOOP_HOME>/conf/masters):hdfs1Slave设置(<HADOOP_HOME>/conf/slaves):hdfs2hdfs37、修改[conf/hadoop-env.sh]:exportJAVA_HOME=/opt/jdk1.6.0_038、修改[conf/hadoop-site.xml],这里只是几个常用的属性配置,有关hadoop的性能优化调整,需要研究hadoop-default.xml:<configuration><property><name>fs.default.name</name>//你的namenode的配置,机器名加端口<value>hdfs://hdfs1:54310/</value></property><property><name>mapred.job.tracker</name>//你的JobTracker的配置,机器名加端口<value>hdfs://hdfs1:54311</value></property><property><name>dfs.replication</name>//数据需要备份的数量,默认是三<value>1</value></property><property><name>hadoop.tmp.dir</name>//Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令。<value>/home/mingjie/hadoop-0.17.1/tmp/</value></property><property><name>mapred.child.java.opts</name>//java虚拟机的一些参数可以参照配置<value>-Xmx512m</value></property><property><name>dfs.block.size</name>//block的大小,单位字节,后面会提到用处,必须是512的倍数,因为采用crc作文件完整性校验,默认配置512是checksum的最小单元。<value>5120000</value><description>Thedefaultblocksizefornewfiles.</description></property></configuration>9、然后将hadoop的整体环境拷贝到hdfs2、hdfs3上面去scp-r/home/mingjie/hadoop.0.17.1hdfs2:/home/mingjie/hadoop.0.17.1scp-r/home/mingjie/hadoop.0.17.1hdfs3:/home/mingjie/hadoop.0.17.110、在hdfs1这个namenode上面格式化一个新的分布式文件系统HDFS,就是hadoop-site.xml文件中指定的hadoop.tmp.dir路径<HADOOP_HOME>/bin/hadoopnamenode–format到此大致上就完成了hadoop环境布署启动hadoop:<HADOOP_HOME>/bin/start-all.sh停止hadoop:<HADOOP_HOME>/bin/stop-all.sh说明:(1)执行启动Hadoop进程后,在master服务器会启动3个java进程,分别的NameNode,SecondNameNode,JobTracker,在LOG目录下会产生2个文件,分别对应NameNode的运行日志和JobTracker的运行日志,在slave服务器会启动2个java进程,分别为DataNode,TaskTracker,,在LOG目录下会产生2个文件,分别对应DataNode的运行日志和TaskTracker的运行日志,可以通过查看日志分析hadoop的启动是否正确。(2)通过IE浏览分布式文件系统中的文件访问http://hdfs1:50030可以查看JobTracker的运行状态。访问http://360quan-1:50060可以查看TaskTracker的运行状态。访问http://360quan-1:50070可以查看NameNode以及整个分布式文件系统的状态。

解决方案

解决方案二:
楼主辛苦了,够了吧
解决方案三:
挺好的,支持搬运:)
解决方案四:
挺好的,支持搬运!
解决方案五:
谢谢你,学习了

时间: 2024-10-03 10:37:49

hadoop 平台搭建的相关文章

高可用Hadoop平台-HBase集群搭建

1.概述 今天补充一篇HBase集群的搭建,这个是高可用系列遗漏的一篇博客,今天抽时间补上,今天给大家介绍的主要内容目录如下所示: 基础软件的准备 HBase介绍 HBase集群搭建 单点问题验证 截图预览 那么,接下来我们开始今天的HBase集群搭建学习. 2.基础软件的准备 由于HBase的数据是存放在HDFS上的,所以我们在使用HBase时,确保Hadoop集群已搭建完成,并运行良好.若是为搭建Hadoop集群,请参考我写的<配置高可用的Hadoop平台>来完成Hadoop平台的搭建.另

优酷数据架构师:搭建Hadoop平台三步走

文章讲的是优酷数据架构师:搭建Hadoop平台三步走,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行.届时,来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲点击进入Haoop中国技术峰会 Haoop中国技术峰会由

windows平台搭建hadoop的一些问题(eclipse)

问题描述 windows平台搭建hadoop的一些问题(eclipse) 小生最近在windows上搭建hadoop,按照官网的教程,应该是搭建起来了(单节点):可以创建和删除hdfs上的文件,在eclipse里面也可以看到hdfs,如果我添加文件,eclipse里也会跟着更新,所以我觉得应该是搭建起来了,如果不是求大神指导. 问题是:在eclipse里我编写了wordcount代码(应该不会错的,我照着书上编的,是0.20.0版),然后使用run configurations设置Argumen

基于Hadoop的云计算试验平台搭建研究

基于Hadoop的云计算试验平台搭建研究 张岩 郭松 赵国海 Hadoop是一个免费的开源云平台,是允许在集群计算机上分布式处理大数据的软件框架.它是一种可靠.高效.可伸缩的云平台,很适合在实验室环境下进行模拟测试.以Hadoop为基础,借助虚拟机VMware以及Linux.ubuntu.Hadoop.java-jdk等软件,详细地介绍了单机环境下的虚拟云平台搭建过程,并给出具体的实例搭建过程.在设计实例中详细的论述了虚拟机.java.Hadoop等软件的安装.设置.测试过程.实现了在实验室环境

高可用Hadoop平台-启航

1.概述 在上篇博客中,我们搭建了<配置高可用Hadoop平台>, 接下来我们就可以驾着Hadoop这艘巨轮在大数据的海洋中遨游了.工欲善其事,必先利其器.是的,没错:我们开发需要有开发工具(IDE):本篇文章, 我打算讲解如何搭建和使用开发环境,以及编写和讲解WordCount这个例子,给即将在Hadoop的海洋驰骋的童鞋入个门.上次,我在<网站日志统计案例分析与实现>中说会将源码放到Github,后来,我考虑了下,决定将<高可用的Hadoop平台>做一个系列,后面基

高可用Hadoop平台-集成Hive HAProxy

1.概述 这篇博客是接着<高可用Hadoop平台>系列讲,本篇博客是为后面用 Hive 来做数据统计做准备的,介绍如何在 Hadoop HA 平台下集成高可用的 Hive 工具,下面我打算分以下流程来赘述: 环境准备 集成并配置 Hive 工具 使用 Java API 开发 Hive 代码 下面开始进行环境准备. 2.环境准备 Hive版本:<Hive-0.14> HAProxy版本:<HAProxy-1.5.11> 注:前提是 Hadoop 的集群已经搭建完成,若还没

高可用Hadoop平台-实战尾声篇

1.概述 今天这篇博客就是<高可用Hadoop平台>的尾声篇了,从搭建安装到入门运行 Hadoop 版的 HelloWorld(WordCount 可以称的上是 Hadoop 版的 HelloWorld ),在到开发中需要用到的各个套件以及对套件的安装使用,在到 Hadoop 的实战,一路走来我们对在Hadoop平台下开发的基本流程应该都熟悉了.今天我们来完成在高可用Hadoop平台开发的最后一步,导出数据. 2.导出数据目的 首先,我来说明下为什么要导出数据,导出数据的目的是为了干嘛? 我们

高可用Hadoop平台-Flume NG实战图解篇

1.概述 今天补充一篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述 单点Flume NG搭建.运行 高可用Flume NG搭建 Failover测试 截图预览 下面开始今天的博客介绍. 2.Flume NG简述 Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡.并且它拥有非常丰富的组件.Fl

高可用Hadoop平台-答疑篇

1.概述 这篇博客不涉及到具体的编码,只是解答最近一些朋友心中的疑惑.最近,一些朋友和网友纷纷私密我,我总结了一下,疑问大致包含以下几点: 我学 Hadoop 后能从事什么岗位? 在遇到问题,我该如何去寻求解决方案? 针对以上问题,我在这里赘述下个人的经验,给即将步入 Hadoop 行业的同学做个参考. 2.我学 Hadoop 后能从事什么岗位 目前 Hadoop 相关的工作大致分为三类:应用,运维,二次开发 2.1 应用 这方面的主要工作是编写MapReduce作业,利用Hive之类的套件来进