hadoop 设置map和reduce的个数

问题描述

hadoop 设置map和reduce的个数

本人搭建了hadoop的开发环境,一个namenode, 两个datanode,写了一个wordcount的程序,能成功执行,那么问题来了,怎么查看map,和reduce的个数,又怎么人为的控制map个reduce的个数。

解决方案

context.getCounter()
job.setNumReduceTasks(?)

解决方案二:

如果只有1个map-reduce,那map的个数是由文件大小来确定的,64MB一个分片,能划分多少个分片就有多少个map,
老版本的mapreduce可以设置map个数,不过新版本不行。
reduce个数则是job.setNumReduceTasks(n)设置。
如果有多个map-reduce任务,那么第二个map的个数会等于第一个reduce的个数,同理往下推。
可以在https://IP地址:50030 web界面这里查看运行的map-reduce任务它们生成的map和reduce个数。

时间: 2024-09-06 14:20:03

hadoop 设置map和reduce的个数的相关文章

Python内置函数map、reduce、filter在文本处理中的应用

文件是由很多行组成的,这些行组成一个列表,python提供了处理列表很有用的三个函数:map.reduce.filter.因此在文本处理中,可以使用这三个函数达到代码的更加精简清晰. 这里的map.reduce是python的内置函数,跟hadoop的map.reduce函数没有关系,不过使用的目的有点类似,map函数做预处理.reduce函数一般做聚合. map.reduce.filter在文本处理中的使用 下面是一个文本文件的内容,第1列是ID,第4列是权重,我们的目标是获取所有ID是奇数的

基于Hadoop的Map reduce编程(一)

翻译的一篇国外的关于hadoop mapreduce的文章,文章比较长,先翻译第一部分吧 翻译者:pconlin900 博客:http://pconline900.javaeye.com Hadoop是apache的一个开源的map-reduce框架,MapReduce是一个并行计算模型,用来处理海量数据.模型思想来源于google的Jeffrey Dean 和 Sanjay Ghemawat,包括map() reduce()两个主要的功能. 这是一个很简单的类似于Hadoop的MapReduc

关于Map和Reduce最大的并发数设置

关于Map和Reduce最大的并发数设置 博客分类: 测试 hadoop&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 一.环境 1.hadoop 0.20.2 2.操作系统 Linux 二.设置 1.因为hadoop的集群所有的机器不可能完全的配置一样,所以,不同节点机器上并发的最大map和reduce数量最好也不要相同. 2.在对应的节点机器上修改mapreduce-sit.xml文件,添加参数如下: <

Hadoop 少量map/reduce任务执行慢问题

最近在做报表统计,跑hadoop任务. 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题. 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大.     需要注意每个任务的数据处理量大小不至于偏差太大.可以切割部分大文件. 2. map数量过多, reduce拉取各方数据慢     这种情况,可以在中间加一轮map过程A.     即map -> mapA - > reduce,来减少reduce拉取数据的源头的个数. 3.

从两个例子看 Python【map、reduce、filter】内置函数的使用

一 概念介绍         本文从求质数,求阶乘两个示例, 提示Python的内置函数[map.reduce.filter]的使用方式         详细参见:https://docs.python.org/2/library/functions.html     Map函数: 对iterable中的item依次执行function(item),执行结果输出为list map(function, iterable[, iterable, ...]) -> list     Filter函数:

Python中的特殊语法:filter、map、reduce、lambda介绍_python

filter(function, sequence):对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决于sequence的类型)返回: 复制代码 代码如下: >>> def f(x): return x % 2 != 0 and x % 3 != 0 >>> filter(f, range(2, 25)) [5, 7, 11, 13, 17, 19, 23] >>

执行wordcount时到map 0% reduce 0%不动了

问题描述 日志如下:14/07/20 12:30:25 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).14/07/20 12:30:25 INFO input.FileInputFormat: Total input paths to process : 114/07/20 12:30:25 INFO u

hadoop中map处理多行数据,可以满足用于算法模型的输入。

问题描述 hadoop中map处理多行数据,可以满足用于算法模型的输入. 在分布式平台做算法研究,遇到一个map处理文件是以行为单位.怎么使map可以 读取多行数据然后可以在map中进行算法模型的训练. 以下是我的尝试: 1:NLineInputFormat 不行,还是单行输出数据. 2:重写 InputFormat函数. 数据集没有具体的切分标志,只能说一个map处理 100或200行数据.没有类似 {} " " -- 的切分标志. 解决方案 你重写函数后也总要有一个规则来定义你的m

5个数组Array方法: indexOf、filter、forEach、map、reduce使用实例_javascript技巧

ECMAScript5标准发布于2009年12月3日,它带来了一些新的,改善现有的Array数组操作的方法.然而,这些新奇的数组方法并没有真正流行起来的,因为当时市场上缺乏支持ES5的浏览器. Array "Extras" 没有人怀疑这些方法的实用性,但写polyfill(PS:兼容旧版浏览器的插件)对他们来说是不值得的.它把"必须实现"变成了"最好实现".有人居然将这些数组方法称之为Array "Extras".哎! 但是,