hadoop实战--搭建开发环境及编写Hello World

1、下载

整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用java方便

进入网站:http://archive.eclipse.org/eclipse/downloads/

选择3.71 eclipse SDK 进入下面的页面:

http://archive.eclipse.org/eclipse/downloads/drops/R-3.7.1-201109091335/#EclipseSDK

选择相关的版本下载JDK,我选择的版本是:eclipse-SDK-3.7.1-linux-gtk

PS:查看linux系统是32位的还是64位的,可以使用下面的命令:

#uname -a

由于我的系统是32位的,所有选择相应的linux版本

2、解压缩

下载下来一般是tar.gz文件,运行:

$tar -zxvf eclipse-SDK-3.7.1-linux-gtk.tar.gz -C ~/opt

这里opt是需要解压的目录,我习惯将一些软件放在opt文件夹中

解完后,在opt文件夹下,就可以看到eclipse文件夹。

运行:$~/opt/eclipse/eclipse

3、下载hadoop在eclise中的插件并配置

直接进入:http://www.java2s.com/Code/Jar/h/Downloadhadoop0202eclipsepluginjar.htm

注意:下载下来的是:hadoop-0.20.2-eclipse-plugin.jar.zip,先解压缩成 hadoop-0.20.2-eclipse-plugin.jar

当然,更加简单的方法是:hadoop-0.20.2/contrib/eclipse-plugin/文件夹中有个hadoop-0.20.2-eclipse-plugin.jar

将jar包放在eclipse安装目录下的plugins文件夹下。然后启动eclipse

进入后,在菜单window->Rreferences下打开设置:

点击“Ant” 出现:

点击browse选择hadoop的源码下的build目录,然后点OK

打开Window->Show View->Other 选择Map/Reduce Tools,单击Map/Reduce Locations,会打开一个View:

添加Hadoop Loacation,其中Host和Port的内容这里的host和port对应mapred-site.xml中mapred.job.tracker的值,UserName 是用户名,我配置的是localhost和9001

但是出现如下问题,eclipse的左侧看不到project explorer,更看不到其中的dfs

解决办法:

应该在菜单栏

选择:Window->Open pespective-><Map/Reduce>。然后就能看到HDFS文件系统已经所创建得一些项目。

添加Hadoop Loacation,其中Host和Port的内容跟据conf/hadoop-site.xml的配置填写,UserName 是用户名,如下图

成功添加Hadoop Loacation后还可能出现如下错误:

解决办法:

这时候,需要对namenode进行格式化:bin/hadoop namenode -format  

执行命令:bin/start-all.sh

如果test下面的文件夹显示(1)而不是(2)也是正常的,如果要显示(2),运行《安装并运行hadoop》一文中最后的那几个命令。

在配置完后,在Project Explorer中就可以浏览到DFS中的文件,一级级展开,可以看到之前我们上传的in文件夹,以及当是存放的2个txt文件,同时看到一个在计算完后的out文件夹。

现在我们要准备自己写个Hadoop 程序了,所以我们要把这个out文件夹删除,有两种方式,一是可以在这树上,执行右健删除。 二是可以用命令行:

$ bin/hadoop fs -rmr out

用$bin/hadoop fs -ls 查看

4、编写HelloWorld

环境搭建好了,之前运行Hadoop时,直接用了examples中的示例程序跑了下,现在可以自己来写这个HelloWorld了。在eclipse菜单下 new Project 可以看到,里面增加了Map/Reduce选项:

选中,点下一步:

输入项目名称后,继续(next), 再点Finish

然后在Project Explorer中就可以看到该项目了,展开,src发现里面啥也没有,于是右健菜单,新建类(new->new class):

然后点击Finish,就可以看到创建了一个java类了:

然后在这个类中填入下面代码:

  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

  public static class IntSumReducer
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(wordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }

填入代码后,会看到一些错误,没关系,点击边上的红叉,然后选择里面的import即可:

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

这里,如果直接用源码来操作,可能会GenericOptionsParser这个类找不到定义,还是红叉,添加commons-cli-
1.2.jar这个jar包,在build/ivy/lib/Hadoop/Common下,右健Project
Explorer中的MyHelloWorld工程,选择Build Path->Config Build Path

在Liberaries Tab页下,点击Add External JARs 在弹出窗口中,跟据前面说的目录,找到这个jar包,点确定后,回到工程,可以看到红叉消失,说明编译都通过了。

在确保整个工程没有错误后,点击上面的小绿箭头,然后在弹出的小窗口上,选择Run On Hadoop:

点OK后,会弹出小窗口:

然手中选择Choose an existing server from the list below。然后找到之前配置的地址项,选中后,点Finish,然后系统不会Run起来,在控制台(双击可最大化)中可以看到运行结果:

运行完后,可以看到多了一个out文件夹,双击打开out文件可以看到单词的统计结果来

可能出现的问题:

问题1:

如果点了Run On Hadoop没有反应,则可能你下的这个插件有问题,

重新到:https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar

下载,然后将下载的插件重命名为"hadoop-0.20.2-eclipse-plugin.jar",放入eclipse中的plugins目录下。

问题2:

运行后,如果Console里只输出Usage :wordcount<in> <out>,

则需要修改下参数,在运行菜单边上小箭头,下拉,点击Run Configuration,:

左边选中 JavaApplication中的 WordCount,右边,在Arguments中输入 in out。然后再点Run 就可以看到结果了。

左边选中 JavaApplication中的 WordCount,右边,在Arguments中输入 in out。然后再点Run 就可以看到结果了。

问题3:

第二次运行会报错,仔细看提示,可以看到报错的是out目录已经存在,所以需要手动来删除一下。

更进一步

上面我们写了一个MapReduce的HelloWorld程序,现在,我们就也学一学HDFS程序的编写。HDFS是什么,它是一个分布式文件存
储系统。一般常用操作有哪些?
当然我们可以从编程角度来:创建、读、写一个文件,列出文件夹中的文件及文件夹列表,删除文件夹,删除目录,移动文件或文件夹,重命名文件或文件夹。

启动eclipse,新建Hadoop项目,名称MyHDFSTest,新建类HDFSTest,点击确定,然后同样工程属性Configure
BuildPath中把 build/ivy/lib/Hadoop下的所有jar包都引用进来(不详细说明了,可参考上面的步骤)

在类中,添加main函数:

public static void main(String[] args) {
}

或者也可以在添加类时,勾选上创建main,则会自动添加上。

在mian函数中添加以下内容:

try {
    Configuration conf = new Configuration();
    conf.set("fs.default.name", "hdfs://localhost:9000");
    FileSystem hdfs = FileSystem.get(conf);
    Path path = new Path("in/test3.txt");
    FSDataOutputStream outputStream = hdfs.create(path);
    byte[] buffer = "Hello".getBytes();
    outputStream.write(buffer, 0, buffer.length);
    outputStream.flush();
    outputStream.close();
    System.out.println("Create OK");
    } catch (IOException e) {
    e.printStackTrace();
}

直接添加进来会报错,然后需要添加一些引用才行:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

在没有错误后,点击工具条上的运行, 但这次跟前次不一样,选择Run as Java Application。然后,就可以在输出框中看到Create OK的字样了,表明程序运行成功。

这段代码的意思是在in文件夹下,创建test3.txt,里面的内容是"Hello"。 在运行完后,我们可以到eclipse的Project Explorer中查看是否有这文件以及内容。同样也可以用命令行查看$bin/hadoop fs -ls in。

ok,第一个操作HDFS的程序跑起来了,那其它功能只要套上相应的处理类就可以了。为了方便查找操作,我们列举了张表:


操作说明


操作本地文件


操作DFS文件


主要命名空间


java.io.File

java.io.FileInputStream

java.io.FileOutputStream


org.apache.hadoop.conf.Configuration

org.apache.hadoop.fs.FileSystem

org.apache.hadoop.fs.Path

org.apache.hadoop.fs.FSDataInputStream;

org.apache.hadoop.fs.FSDataOutputStream


初使化对象


new File(路径);


Configuration

FileSystem hdfs


创建文件


File.createNewFile();


FSDataOutputStream = hdfs.create(path)

FSDataOutputStream.write(

buffer, 0, buffer.length);


创建文件夹


File.mkdir()


hdfs.mkdirs(Path);


读文件


new FileInputStream();

FileInputStream.read(buffer)


FSDataInputStream = hdfs.open(path);

FSDataInputStream.read(buffer);


写文件


FileOutputStream.write(

buffer, 0, buffer.length);


FSDataOutputStream = hdfs.append(path)

FSDataOutputStream.write(

buffer, 0, buffer.length);


删除文件(夹)


File.delete()


FileSystem.delete(Path)


列出文件夹内容


File.list();


FileSystem.listStatus()


重命令文件(夹)


File.renameTo(File)


FileSystem.rename(Path, Path)        

有了这张表,以后在需要的时候就可以方便查询了。

时间: 2024-11-30 16:31:16

hadoop实战--搭建开发环境及编写Hello World的相关文章

《Python爬虫开发与项目实战》——1.2 搭建开发环境

1.2 搭建开发环境 俗话说:"工欲善其事必先利其器",在做Python爬虫开发之前,一个好的IDE将会使编程效率得到大幅度提高.下面主要介绍两种IDE:Eclipse和PyCharm,并以在Windows 7上安装为例进行介绍.1.2.1 Eclipse+PyDev Eclipse是一个强大的编辑器,并通过插件的方式不断拓展功能.Eclipse比较常见的功能是编写Java程序,但是通过扩展PyDev插件,Eclipse就具有了编写Python程序的功能.所以本书搭建的开发环境是Ecl

《深入理解Hadoop(原书第2版)》——3.2使用Cloudera虚拟机搭建开发环境

3.2使用Cloudera虚拟机搭建开发环境 本书着重讲解基于Hadoop系统的开发.Hadoop系统的安装是一个比较复杂的操作过程,服务提供商会提供安装工具使得该安装操作易如反掌.比如,Cloudera公司开发的Cloudera Manager就大大简化了Hadoop系统的安装.作为一个开发人员,我们希望有一个可快速安装且易于搭建的可靠的开发环境.Cloudera公司发布了基于VMware 和 VirtualBox的CDH5.0.如果你没有安装这些虚拟机的播放器,请先下载安装其最新版本.然后,

《Swift开发实战》——第1章,第1.2节搭建开发环境

1.2 搭建开发环境都说"工欲善其事,必先利其器",这一说法在编程领域同样行得通,学习Swift开发也离不开好的开发工具的帮助.在本节中,将详细讲解搭建Swift语言开发环境的基本知识. 1.2.1 Xcode 6介绍要开发iOS的应用程序,需要一台安装有Xcode工具的Mac OS X电脑.Xcode是苹果提供的开发工具集,它提供了项目管理.代码编辑.创建执行程序.代码调试.代码库管理和性能调节等功能.这个工具集的核心就是Xcode程序,提供了基本的源代码开发环境. Xcode是一款

《iOS 9 开发指南》——第1章,第1.3节工欲善其事,必先利其器——搭建开发环境

1.3 工欲善其事,必先利其器--搭建开发环境 iOS 9 开发指南 图片 2 知识点讲解:光盘:视频\知识点\第1章\搭建开发环境.mp4 学习iOS 9开发也离不开好的开发工具的帮助,如果使用的是OS X El Capitan系统,下载iOS 9开发工具将很容易,只需通过简单地单击操作即可.为此,在Dock中打开Apple Store,搜索Xcode 7并免费下载它,坐下来等待Mac下载大型安装程序(约5GB).如果你使用的不是OS X El Capitan系统,可以从iOS开发中心(htt

深入浅出Docker(五):基于Fig搭建开发环境

深入浅出Docker(五):基于Fig搭建开发环境 1. 概述 在搭建开发环境时,我们都希望搭建过程能够简单,并且一劳永逸,其他的同事可以复用已经搭建好的开发环境以节省开发时间.而在搭建开发环境时,我们经常会被复杂的配置以及重复的下载安装所困扰.在Docker技术未出现之前,我们可以使用Pupet.Chef.Ansible等配置管理工具把复杂的配置管理起来,这样的管理配置技术仍然是目前比较流行的方式之一.配置管理工具使用的都是自己的DSL语法定义,考虑到环境的复杂性,配置一套通用的开发环境需要针

Python自动化测试Eclipse+Pydev 搭建开发环境_python

Python自动化测试 Eclipse+Pydev 搭建开发环境 C#之所以容易让人感兴趣,是因为安装完Visual Studio, 就可以很简单的直接写程序了,不需要做如何配置. 对新手来说,这是非常好的"初体验", 会激发初学者的自信和兴趣. 而有些语言的开发环境的配置非常麻烦, 这让新手有挫败感,没有好的"初体验",可能会对这门语言心存敬畏, 而失去兴趣. 作为一个.NET程序员, 用惯了Visual Studio.  Visual Studio的强大功能,比

AngularJS整合Springmvc、Spring、Mybatis搭建开发环境_AngularJS

最近想学习AngularJS的使用,网上搜了一圈后,折腾了半天解决bug后,成功使用AngularJS整合Springmvc.Spring.Mybatis搭建了一个开发环境.(这里Spring使用的版本是4.0.6,Mybatis版本是3.2.5,AngularJS的版本是1.0.3) 第一步:创建一Maven项目,在pom.xml下添加需要的包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="

《Storm实时数据处理》一1.2 搭建开发环境

1.2 搭建开发环境 开发环境涵盖了构建Storm Topology所需的各种工具和系统.虽说本书重点关注的是每个有技术侧重点的Storm交付,但需要指出的是,对于一个软件开发团队来说,无论使用集中式开发环境还是分布式开发环境,都需要更多的工具和流程来保证高效工作,而且不能仅仅局限于本书所讨论的内容.无论是为了将来的开发工作,还是为了实现书中的例子,以下几类工具和流程都是快速搭建开发环境必不可少的: SDK 版本控制 构建环境 系统配置工具 集群配置工具 书中描述的配置和安装方法都基于Ubunt

《MonoTouch开发实践指南》一1.1 搭建开发环境

1.1 搭建开发环境 在使用MonoTouch开发之前,有许多事情需要先验知识(priori).首先从苹果(Apple)入手获取所需要的一切,然后过渡到必不可少的MonoTouch上. 1.1.1 安装iOS SDK和苹果开发工具 欢迎来到使用.NET进行iOS应用开发的世界.我敢肯定,你现在会兴奋得想立刻开始编写程序,不过,首先要做的是在手头那部闪闪发亮的Mac上搭建开发环境.然后熟悉一下在模拟器和iPhone上进行开发所需的所有步骤以及应用程序如何在它们中运行.注意 本书的内容也适用于iPo