问题描述
- reduce阶段copy map输出数据细节问题
-
如果一个作业中存在多个reducer,那每个map函数处理完数据之后都要利用partioner
函数将key/value分区,使其对应相应的reducer,但是最终map会将排好序的数据溢写
到磁盘上,map最后阶段会将所有的溢写文件合并成一个文件。然后是reduce的copy阶段,请问reduce函数copy数据的时候是把整个文件拷贝过去,还是只是从整个文件中截取属于自己分区的key/value记录?
解决方案
http://langyu.iteye.com/blog/992916
http://blog.sina.com.cn/s/blog_605f5b4f010188lp.html
可以看下上面的2篇文章。
时间: 2024-08-01 15:32:11