MapReduce编程实战

　　MapReduce是什么

　　MapReduce是Hadoop（这种大">数据处理生态环境）的编程模型。既然称为模型，则意味着它有固定的形式。

　　MapReduce编程模型，就是Hadoop生态环境进行数据分析处理的固定的编程形式。

　　这种固定的编程形式描述如下：

　　MapReduce任务过程被分为两个阶段：map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出，并由程序员选择他们的类型。

　　也就是说，程序员只需要定义两个函数：map函数和reduce函数就好了，其他的计算过程交给hadoop就好了。

　　通过以上描述，我们可以看出：

　　MapReduce所能处理的场景实际是非常具体的，非常有限的，只是“数据的统计分析”场景。

　　输入数据准备

　　天气预报官方网址：ftp://ftp.ncdc.noaa.gov/pub/data/gsod/

　　但是，发现这个官方网址的文件格式和《Hadoop权威指南》( http://www.linuxidc.com/Linux/2012-07/65972.htm )所用的格式不一致，不知道是时间久了，官网的格式变了，还是作者对原始格式进行过处理，亦或这个网址根本不对，所以继而又到《Hadoop权威指南》指定的地址下载了一个，地址如下：

　　https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all

　　如果简单测试，也可以把下面这几行粘贴到一个文本文件也行，这就是正确的天气文件：

　　0035029070999991902010113004+64333+023450FM-12+000599999V0201401N011819999999N0000001N9-01001+99999100311ADDGF104991999999999999999999MW1381

　　0035029070999991902010120004+64333+023450FM-12+000599999V0201401N013919999999N0000001N9-01171+99999100121ADDGF108991999999999999999999MW1381

　　0035029070999991902010206004+64333+023450FM-12+000599999V0200901N009819999999N0000001N9-01611+99999100121ADDGF108991999999999999999999MW1381

　　0029029070999991902010213004+64333+023450FM-12+000599999V0200901N011819999999N0000001N9-01721+99999100121ADDGF108991999999999999999999

　　0029029070999991902010220004+64333+023450FM-12+000599999V0200901N009819999999N0000001N9-01781+99999100421ADDGF108991999999999999999999

　　本文中，我们把存储天气格式的文本文件命名为：temperature.txt

　　MapReduce Java编程

　　有两套JavaAPI，旧的是org.apache.hadoop.mapred包，MapReduce编程是使用实现接口的方式；新的是org.apache.hadoop.marreduce包，MapReduce编程是使用继承抽象基类的方式；其实都差不多，下面都会有显示。

　　Maven

　　<groupId>org.apache.hadoop</groupId>

　　<artifactId>hadoop-core</artifactId>

　　</dependency>

　　也可以不用官方的，用别人修改重新编译过的，可以直接在Eclipse里面像运行普通Java程序一样运行MapReduce。

　　编译过的hadoop-core-1.0.4.jar，可以在本地模拟MapReduce

　　如果Eclipse workspace在d:，则我们可以把d:的某个目录，比如d:\input作为输入目录；d:\output作为输出目录。

　　MapReduce编程模型里面这样写就可以了：

　　FileInputFormat.setInputPaths(job, new Path("/input"));

　　FileOutputFormat.setOutputPath(job, new Path("/output"));

时间： 2024-11-30 01:19:32

MapReduce编程实战

MapReduce编程实战的相关文章

《MapReduce 2.0源码分析与编程实战》一导读

《MapReduce 2.0源码分析与编程实战》一第1章大象也会跳舞

Java多线程编程实战之不提倡的方法

Linux Shell 编程实战技巧

《GO并发编程实战》—— 原子操作

《Java 7并发编程实战手册》第六章并发集合

跟老男孩学Linux运维：Shell编程实战.

《Python数据可视化编程实战》—— 1.2　安装matplotlib、Numpy和Scipy库

程序员最常用的5大编程实战网站