问题描述
- hadoop中combine,partition和shuffle的疑问
-
这是我理解的hadoop函数调用过程,但还是有点疑惑,比如:每个map函数输出都调用一个partition函数(图中为此方式)还是一个partition函数处理所有的map输出,如果图中的过程正确,那么shuffle函数调用发生在哪里?
解决方案
http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/
解决方案二:
本图画得有问题,首先partitioner函数是在combinationer函数之前执行,patritioner是在map往内存中写数据时发生的,而combinationer是在内存通过spill向硬盘写数据时执行的。
shuffle是一个数据复制的函数,负责将map的输出数据复制到reduce中。
时间: 2024-09-18 03:27:00