hadoop的一些名词解释

在网上收集了一些mapreduce中常用的一些名词的解释,分享一下:

Shuffle(洗牌):当第一个map任务完成后,节点可能还要继续执行更多的map 任务,但这时候也开始把map任务的中间输出交换到需要它们的 reducer那里去,这个移动map输出到 reducer 的过程叫做shuffle。

 

Partition:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集合,这些子集合(被称为“partitions”)是reduce任务的输入数据。每一个map任务生成的键值对可能会隶属于任意的partition,有着相同键的数值总是在一起被reduce,不管它是来自那个mapper的。因此,所有的map 节点必须就把不同的中间数据发往何处达成一致。Partitioner 类就是用来决定给定键值对的去向,默认的分类器(partitioner)会计算键的哈希值并基于这个结果来把键赋到相应的partition上。

 

排序(Sort):每一个reduce任务负责归约(reduceing)关联到相同键上的所有数值,每一个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被Hadoop排序过了。

 

Combiner:前面展示的流水线忽略了一个可以优化MapReduce作业所使用带宽的步骤,这个过程叫Combiner,它在Mapper之后 Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner 实例会在每一个运行map任务的节点上运行。Combiner会接收特定节点上的 Mapper 实例的输出作为输入,接着 Combiner 的输出会被发送到Reducer那里,而不是发送Mapper的输出。 Combiner是一个“迷你reduce”过程,它只处理单台机器生成的数据。

 

Reporter:是用于Map/Reduce应用程序报告进度,设定应用级别的状态消息, 更新Counters(计数器)的机制。

 

Mapper和Reducer的实现可以利用Reporter 来报告进度,或者仅是表明自己运行正常。在那种应用程序需要花很长时间处理个别键值对的场景中,这种机制是很关键的,因为框架可能会以为这个任务超时了,从而将它强行杀死。另一个避免这种情况发生的方式是,将配置参数mapred.task.timeout设置为一个足够高的值(或者干脆设置为零,则没有超时限制了)。 应用程序可以用Reporter来更新Counter(计数器)。

 

OutputCollector:是一个Map/Reduce框架提供的用于收集 Mapper或Reducer输出数据的通用机制 (包括中间输出结果和作业的输出结果)。

时间: 2024-12-31 15:09:08

hadoop的一些名词解释的相关文章

FTP服务器端注意事项及常见名词解释

FTP(File Transfer Protocol)是Internet上用来传送文件的协议(文件传输协议). FTP服务器端的注意事项: 一.FTP服务器是公网IP,用公网动态域名:或是内网IP,用内网专业版TrueHost服务器如果安装了防火墙,请记住要在防火墙上打开FTP端口(默认是21). 所有FTP服务器软件都支持PORT方式.至于PASV方式,大部分FTP服务器软件都支持.支持PASV方式的FTP服务器软件,也可以设置为只工作在PORT方式上.为了PASV方式能正常工作,需要在FTP

数据库名词解释之主题数据库的基本特征

我们推出一系数据库名词解释,这次来讲解的是主题数据库的基本特征. 主题数据库的基本特征有: 1.面向业务主题(不是面向单证报表).主题数据库是面向业务主题的数据组织存储,例如,企业中需要建立的典型的主题数据库有:产品.客户.零部件.供应商.订货.员工.文件资料.工程规范等.其中,产品.客户.零部件等数据库的结构,是对有关单证.报表的数据项进行分析整理而设计的,不是按单证.报表的原样建立的.这些主题数据库与企业管理中要解决的主要问题相关联,而不是与通常的计算机应用项目相关联. 2.信息共享(不是信

Android开发的IDE、ADT、SDK、JDK、NDK等名词解释

  这篇文章主要介绍了Android开发的IDE.ADT.SDK.JDK.NDK等名词解释,对这些概念搞不清楚是一件痛苦的事,本文就简洁讲解了这些名词的含义,一起扫盲吧,需要的朋友可以参考下 1. IDE: Intelligent Development Environm的简称.即智能开发环境.是一种开发工具.常用的IDE有adt-bundles和Android studio.两个都需要配置jdk. 2. ADT: Android Development tools的简称.即Android开发工

Python中几个比较常见的名词解释

  这篇文章主要介绍了Python中几个比较常见的名词解释,本文解释同样适应其它编程语言,本文讲解了循环.迭代.递归.遍历等名词的含义,需要的朋友可以参考下 循环(loop),指的是在满足条件的情况下,重复执行同一段代码.比如,while语句. 迭代(iterate),指的是按照某种顺序逐个访问列表中的每一项.比如,for语句. 递归(recursion),指的是一个函数不断调用自身的行为.比如,以编程方式输出著名的斐波纳契数列. 遍历(traversal),指的是按照一定的规则访问树形结构中的

计算机硬盘的存储名词解释

  硬盘的盘片是将磁粉附着在铝合金(新材料也有改用玻璃的)圆盘片的表面上制成的,这些磁粉波划分成被称作"磁道"的若干个同心圆.在每个同心圆的磁道上就好像有无数的任意排列着的小磁铁,它们分别代表0和1的状态.当这些小磁铁受到来自磁头的磁力影响时,其徘列的方向会随之改变,利用磁头的磁力来控制指定的一些小磁铁的方向,使每个小磁铁都可以用来储存信总.0盘片上的小磁铁越多.能存储的信息也越多. 硬盘的盘体由多个盘片(Platter)组成,这些盘片被重叠在一起,放在一个密封的盒中,它们在主轴电机的

名词解释(通信)

  名词解释OSS--是GMCC移动通信网中爱立信设备的操作支持系统,即网管系统.系统功能包括配置管理.故障管理.性能管理和操作维护管理等.我们开站时就是在OSS上进行操作.DT--是开站所需指令的集合.我们一般预先把开站的指令都写好,存为一个文本文件,就叫做DT.开站时把这个文件打开,将指令LOAD到交换机就可以了,这样就不必逐条敲指令,提高了效率.CDD--是由设计院设计的网络规划表,基本上包括了当地所有小区的小区参数.相邻关系.频率规划等内容,是我们做工程的主要依据.MO--Manage

软件工程缩略词名词解释

问题描述 软件工程缩略词名词解释 DMT SREM SRI CML RTM SCRUM 求大神帮忙解释一下 解决方案 DMT(Dynamic Multithreading Architecture,动态多线程结构) SREM(software requirement engineering methodology,软件要求工程方法学) SRI(SIP Relay Interface,SIP传递的接口) CML(Concurrent Mapping and Localization ,并行映射与定

测试中的名词解释:bug、任务、测试用例、用户情景、特性、长篇故事、问题

问题描述 测试中的名词解释:bug.任务.测试用例.用户情景.特性.长篇故事.问题 bug.任务.测试用例.用户情景.特性.长篇故事.问题.这些词语都是怎么定义的,区别是什么? 我是个新手,最近是想研究TFS来管理测试,不知道工作项里面的这些词怎么区别,请教大家解释一下 解决方案 最好用英文,中文这个翻译很难说是什么东西. 好比attribute也叫属性,property也叫属性:issue叫问题,question.problem也叫问题,这就很难说了. 解决方案二: 我想问问的是TFS团队管理

语言-“网络广告”的名词解释是什么?

问题描述 "网络广告"的名词解释是什么? 一道考试的题目,题目是名词解释.解释"网络广告".一看到大概知道,但是不会组织专业的语言啊,求解 解决方案 网络广告又被称为在线广告或者互联网广告,是以计算机为核心组成的计算机网络为媒介的广告行为. 网络广告与传统广告有很多类似的地方,也可分为banner广告.分类广告.赞助式广告等等很多不同广告形式,拥有多种计费方式. 解决方案二: 通过网络广告投放平台来利用网站上的广告横幅.文本链接.多媒体的方法,在互联网刊登或发布广告