用PHP和Shell写Hadoop的MapReduce程序_php实例

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer。例如:

复制代码 代码如下:

hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc

在这个例子里,就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer,是不是很神奇?

如果你习惯了使用一些动态语言,用动态语言来写mapreduce吧,跟之前的编程没有任何不同,hadoop只是运行它的一个框架,下面我演示一下用PHP来实现Word Counter的mapreduce。

一、找到Streaming jar

Hadoop根目录下是没有hadoop-streaming.jar的,因为streaming是一个contrib,所以要去contrib下面找,以hadoop-0.20.2为例,它在这里:

复制代码 代码如下:

$HADOOP_HOME/contrib/streaming/hadoop-0.20.2-streaming.jar

二、写Mapper

新建一个wc_mapper.php,写入如下代码:

复制代码 代码如下:

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
$words = preg_split(‘/\W/', $line, 0, PREG_SPLIT_NO_EMPTY);
foreach ($words as $word)
$results[] = $word;
}
fclose($in);
foreach ($results as $key => $value)
{
print “$value\t1\n”;
}

这段代码的大致意思是:把输入的每行文本中的单词找出来,并以”
hello 1
world 1″
这样的形式输出出来。

和之前写的PHP基本没有什么不同,对吧,可能稍微让你感到陌生有两个地方:

PHP作为可执行程序

第一行的“#!/usr/bin/php”告诉linux,要用/usr/bin/php这个程序作为以下代码的解释器。写过linux shell的人应该很熟悉这种写法了,每个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python

有了这一行,保存好这个文件以后,就可以像这样直接把wc_mapper.php当作cat, grep一样的命令执行了:./wc_mapper.php

使用stdin接收输入

PHP支持多种参数传入的方法,大家最熟悉的应该是从$_GET, $_POST超全局变量里面取通过Web传递的参数,次之是从$_SERVER['argv']里取通过命令行传入的参数,这里,采用的是标准输入stdin

它的使用效果是:

在linux控制台输入 ./wc_mapper.php

wc_mapper.php运行,控制台进入等候用户键盘输入状态

用户通过键盘输入文本

用户按下Ctrl + D终止输入,wc_mapper.php开始执行真正的业务逻辑,并将执行结果输出

那么stdout在哪呢?print本身已经就是stdout啦,跟我们以前写web程序和CLI脚本没有任何不同。

三、写Reducer

新建一个wc_reducer.php,写入如下代码:

复制代码 代码如下:

#!/usr/bin/php
<?php
$in = fopen(“php://stdin”, “r”);
$results = array();
while ( $line = fgets($in, 4096) )
{
list($key, $value) = preg_split(“/\t/”, trim($line), 2);
$results[$key] += $value;
}
fclose($in);
ksort($results);
foreach ($results as $key => $value)
{
print “$key\t$value\n”;
}

这段代码的大意是统计每个单词出现了多少次,并以”
hello 2
world 1″
这样的形式输出。

四、用Hadoop来运行

上传要统计的示例文本

复制代码 代码如下:

hadoop fs -put *.TXT /tmp/input

以Streaming方式执行PHP mapreduce程序

复制代码 代码如下:

hadoop jar hadoop-0.20.2-streaming.jar -input /tmp/input -output /tmp/output -mapper wc_mapper.php的绝对路径 -reducer wc_reducer.php的绝对路径

注意:

input和output目录是在hdfs上的路径

mapper和reducer是在本地机器的路径,一定要写绝对路径,不要写相对路径,以免到时候hadoop报错说找不到mapreduce程序。

查看结果

复制代码 代码如下:

hadoop fs -cat /tmp/output/part-00000

五、shell版的Hadoop MapReduce程序

复制代码 代码如下:

#!/bin/bash -

# 加载配置文件
source './config.sh'

# 处理命令行参数
while getopts "d:" arg
do
 case $arg in
  d)
   date=$OPTARG

  ?)
            echo "unkonw argument"
   exit 1

    esac
done

# 默认处理日期为昨天
default_date=`date -v-1d +%Y-%m-%d`

# 最终处理日期. 如果日期格式不对, 则退出执行
date=${date:-${default_date}}
if ! [[ "$date" =~ [12][0-9]{3}-(0[1-9]|1[12])-(0[1-9]|[12][0-9]|3[01]) ]]
then
 echo "invalid date(yyyy-mm-dd): $date"
 exit 1
fi

# 待处理文件
log_files=$(${hadoop_home}bin/hadoop fs -ls ${log_file_dir_in_hdfs} | awk '{print $8}' | grep $date)

# 如果待处理文件数目为零, 则退出执行
log_files_amount=$(($(echo $log_files | wc -l) + 0))
if [ $log_files_amount -lt 1 ]
then
 echo "no log files found"
 exit 0
fi

# 输入文件列表
for f in $log_files
do
 input_files_list="${input_files_list} $f"
done

function map_reduce () {
 if ${hadoop_home}bin/hadoop jar ${streaming_jar_path} -input${input_files_list} -output ${mapreduce_output_dir}${date}/${1}/ -mapper "${mapper} ${1}" -reducer "${reducer}" -file "${mapper}"
 then
  echo "streaming job done!"
 else
  exit 1
 fi
}

# 循环处理每一个bucket
for bucket in ${bucket_list[@]}
do
 map_reduce $bucket
done

时间: 2024-10-28 02:06:37

用PHP和Shell写Hadoop的MapReduce程序_php实例的相关文章

mapreduce-自己写的hadoop ,MapReduce程序不能并行

问题描述 自己写的hadoop ,MapReduce程序不能并行 ** 学习hadoop有一段时间了,在写hadoop 程序时,尽管是根据官方例子,套着模板写出的,但是不能达到真正意义上的并行,也就是说,各分机没有任务运行. ** 运行环境如下: 操作系统: centOS6.3 32位, jdk1.7, hadoop-1.0.3, 1台master3台worker. 为了具体说明问题,程序如下: package campus; import java.io.IOException;import

利用PHP如何写APP接口详解_php实例

搭建PHP环境 由于本人使用的电脑是Mac,因此推荐大家使用MAMP PRO这款软件,不过是收费版,相信不想花钱的大家会有办法搞定的! MAMP PRO这款软件是集成环境软件,已经有apache.mysql.php了,具备运行解析PHP的环境了! 如果不想使用集成环境,可以自己搭建.Mac自带了apache和PHP环境的,只需要稍加配置一下就可以使用了,然后再安装一下mysql就可以了! 大家可以看一下简单版本配置:Mac配置PHP环境 这篇文章. 启动服务器 这里是以MAMP PRO软件为例,

wiki-shan写的php在线加密的解密程序_php实例

对应的写了一个简单的解密的,专门针对eval.这个原理很有用途的,在这里记下. 复制代码 代码如下: <?php /* author:zhiwushan date:20080411 */ //已经加密的文件内容 $a=" eval(gzinflate(str_rot13(base64_decode('DdNUsptVAADQq2vn7+oFGU6VPb+EyE4EiSA2LhAZUZN2OP343eF9//f7+1S+Jd1KbNZ90SVY/jUv098JLgT1lSZmztJ/s/wN

PHP mkdir()无写权限的问题解决方法_php实例

使用mkdir创建文件夹时,发现这个函数有两个参数,第二个参数是为新创建的文件夹指定权限. 但是如果直接用mkdir('文件地址', 0777);时 发现新文件夹的权限并不是777,一般情况下会是022. 因为mkdir在给文件夹制定权限时,会跟当前登录操作系统用户的umask(用户缺省权限属 性)值进行位"与",得到的值才是最终权限值. umask 是什么? 我们创建文件的默认权限是怎么来的?如何改变这个默认权限呢? 当我们登录系统之后创建一个文件总是有一个默认权限的,那么这个权限是

《Hadoop MapReduce实战手册》一1.4 给WordCount MapReduce程序增加combiner步骤

1.4 给WordCount MapReduce程序增加combiner步骤 Hadoop MapReduce实战手册运行map函数后,如果有许多键值对使用相同的键,那么Hadoop必须将所有这些值传送到reduce函数.这可能会产生一个非常显著的开销.为了优化这样的场景,Hadoop支持一个专门的函数--combiner.如果配置了combiner,Hadoop会在运行完成mapper之后.调用reducer之前,在map节点所在的那个节点调用combiner.这可以显著地减少传输到reduc

Hadoop新MapReduce框架Yarn详解

Hadoop MapReduceV2(Yarn) 框架简介 原 Hadoop MapReduce 框架的问题 对于业界的大数据存储及分布式 处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者 可参考 Hadoop 官方简介.使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框 架图: 图 1.Hadoop 原 MapReduce 架构 从上图中可以清楚的看出原 Map

高可用Hadoop平台-运行MapReduce程序

1.概述 最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动重连,自动重连也可以帮我我们解决运行MapReduce程序的问题.然后,今天我赘述的是利用Hadoop的Java API 来实现. 2.介绍 下面直接附上代码,代码中我都有注释. 2.1Java操作HDFS HA的API 代码如下: /** * */ package cn.hdfs.mr.examp

《深入理解Hadoop(原书第2版)》——3.3一个MapReduce程序的组成

3.3一个MapReduce程序的组成 本节介绍基于Java语言的MapReduce程序由哪些部分构成.下文逐一讲解了各个组成部分: Java程序客户机(Client Java program):一个Java程序,由集群中的一个客户端节点(又被称为边缘节点)提交运行.这个客户端节点可以访问Hadoop集群,它经常(并不总是)由集群中的一个数据节点来充当.该节点仅是集群中的一台机器,并且有权限访问Hadoop. 自定义Mapper类(Custom Mapper class):除非在最简单的应用场景

hadoop一个mapreduce的JOB最短执行时间

问题描述 hadoop一个mapreduce的JOB最短执行时间 如题,我想用hadoop来进行文本检索,想法是一个查询对应一个JOB,检索的话肯定时间要快. 但是我在eclipse中跑一个JOB时,即使是什么都不做,也需要7秒,用hadoop jar命令更久. 请问这个时间可以优化吗,还是Mapreduce初始JOB就需要这么久.还有一个奇怪的现象: JOB如果遍历文本集合来进行检索,竟然只需要6秒多,比什么都不干还快. 解决方案 看起来不会有人回答了,个人感觉mapreduce就是慢,不是说