Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)

&">nbsp;   伪分布模式主要涉及一下的配置信息:

修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号;

修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication;

修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置JobTracker的地址和端口;

在具体操作前我们先在Hadoop目录下创建几个文件夹:

下面开始构建具体的伪分布式的过程并进行测试:

首先配置core-site.xml文件:

进入core-site.xml文件:

配置后文件的内容如下所示:

使用“:wq”命令保存并退出。

接下来配置hdfs-site.xml,打开文件:

打开后的文件:

配置后的文件:

输入“:wq”保存修改信息并退出。

接下来修改mapred-site.xml配置文件:

进入配置文件:

修改后的mapred-site.xml配置文件的内容为:

使用“:wq”命令保存并退出。

通过上面的配置,我们完成了最简单的伪分布式配置。

接下来进行hadoop的namenode格式化:

输入“Y”,完成格式化过程:

接下来启动Hadoop!

启动Hadoop,如下所示:

使用java自带的jps命令查询出所有的守护进程:

启动Hadoop!!!

接下来使用Hadoop中用于监控集群状态的Web页面查看Hadoop的运行状况,具体的页面如下:

http://localhost:50030/jobtracker.jsp

http://localhost:50060/tasttracker.jsp   
    http://localhost:50070/dfshealth.jsp

上述Hadoop运行状态监控页面表明我们的伪分布式开发环境完全搭建成功!

接下来我们使用新建的伪分布式平台运行wordcount程序:

首先在dfs中创建input目录:

此时创建的文件因为没有指定hdfs具体的目录,所以会在当前用户“rocky”下创建“input”目录,查看Web控制台:

执行文件拷贝操作

点击继续阅读:Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(2)

时间: 2024-11-05 22:01:48

Spark教程-构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)的相关文章

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(2)

接上一篇:http://www.aliyun.com/zixun/aggregation/13383.html">Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(1) 2.安装rsync 我们的Ubuntu 12.10版本默认安装了rsync,我们可以通过以下命令来安装或者更新rsync 3.安装hadoop,家林把下载下来的最新稳定版本的hadoop保存在电脑本地的以下位置: 创建/usr/local/hadoop目录并把下载下来的Hadoop解压/

Spark修炼之道(进阶篇)——Spark入门到精通:第一节 Spark 1.5.0集群搭建

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署 注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭建.大家可以利用CentOS

Elasticsearch集群配置和管理教程

ElasticSearch集群服务器配置 一.安装 ElasticSearch是基于Lence的,而Lence是用Java编写的开源库,需要依赖Java的运行环境.现在使用的ELasticSearch版本是1.6,它需要jdk1.7或以上的版本.本文使用的是linux系统,安装配置好Java环境,把download下来,解压后直接执行启动就可以了. 1.安装启动elasticsearch:cd到elasticsearch-1.6.0.tar.gz 放置的目录,解压 tar -xvf elasti

Spark学习之在集群上运行Spark(6)

Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力. 2. Spark既能适用于专用集群,也可以适用于共享的云计算环境. 3. Spark在分布式环境中的架构: Created with Raphaël 2.1.0我的操作集群管理器Mesos.YARN.或独立集群管理器N个集群工作节点(执行器进程) Spark集群采用的是主/从结构,驱动器(Driver)节点和所有执行器(executor)节点一起被称为一个S

sparkha集群配置

sparkha集群配置,基于hadoop hdfs的spark集群 hadoop配置. su - rdato cd /u01 tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz mv spark-2.1.1-bin-hadoop2.7 spark #复制模版 cp /u01/spark/conf/spark-env.sh.template /u01/spark/conf/spark-env.sh cp /u01/spark/conf/slaves.template /

《Storm实时数据处理》一1.5 创建Storm集群——配置机器

1.5 创建Storm集群--配置机器 本地模式下测试集群对调试和验证集群的基本功能逻辑很有帮助.但是,这并不代表你就能够了解集群在实际环境中运行的状况.此外,只有当系统已经在产品环境中运行时,开发工作才算真正完成.任何开发者都应该重视这一点,并且这也是整个DevOps实践的基础.无论采用什么方法,你都必须能够将代码可靠地部署到产品环境中.本节将展示如何直接通过版本控制创建和配置一个完整的集群.在此之前,需要事先说明一些有关创建和配置集群的基本原则: 我们需要时刻了解服务器的会话状态.在没有严格

淘宝主搜索离线集群完成Hadoop 2.0升级

搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级: 2013-04 第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0: 2013-09,2013-12 第二阶段,主要升级mapreduce到2.0版本即(YARN),hive升级到0.10.0,在13年年底的时候对hbase进行了一次小版本升级: 至此,dump离线集群完全进入2.0时代: 通过升级hdfs 2.0优

《Storm实时数据处理》一1.6 创建Storm集群——配置Storm

1.6 创建Storm集群--配置Storm 当拥有一组准备好进行应用程序配置的虚拟机后,你就可以在每个节点上安装和配置适当的软件包了. 1.6.1 实战 Step01 按照图1-7所示的目录结构,新建名为storm-puppet的项目. Step02 在配置好的节点上,Puppet的运行入口(起点)是site.pp.在manifests目录下新建site.pp并添加以下内容: Step03 接着,你需要定义Storm模块.模块应该放置于modules目录下,并且和Puppet项目根目录的结构一

MongoDB高可用集群配置的几种方案

一.高可用集群的解决方案 高可用性即HA(High Availability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性. 计算机系统的高可用在不同的层面上有不同的表现: (1)网络高可用 由于网络存储的快速发展,网络冗余技术被不断提升,提高IT系统的高可用性的关键应用就是网络高可用性,网络高可用性与网络高可靠性是有区别的,网络高可用性是通过匹配冗余的网络设备实现网络设备的冗余,达到高可用的目的. 比如冗余的交换机,冗余的路由器等