reduce阶段copy map输出数据细节问题

如果一个作业中存在多个reducer,那每个map函数处理完数据之后都要利用partioner
函数将key/value分区，使其对应相应的reducer,但是最终map会将排好序的数据溢写
到磁盘上，map最后阶段会将所有的溢写文件合并成一个文件。然后是reduce的copy阶段，请问reduce函数copy数据的时候是把整个文件拷贝过去，还是只是从整个文件中截取属于自己分区的key/value记录？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
llx1943llx 2015-06-04 02:00
关注
http://langyu.iteye.com/blog/992916

http://blog.sina.com.cn/s/blog_605f5b4f010188lp.html

可以看下上面的2篇文章。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

MapReduce-Map阶段和Reduce阶段
2023-05-23 17:44

一个渣渣sql_boy的博客 MapReduce-Map阶段和Reduce阶段 MapReduce-Map阶段和Reduce阶段细节 Map阶段（黄色部分是细节，后续有延伸解释） Reduce阶段细节 MapReduce-Map阶段和Reduce阶段细节基本思想是**“分而治之”** Map阶段（黄色部分...
map,shuffer,reduce阶段任务
2021-11-22 22:19

今天该取什么名字好的博客 1.inputsplit：这是map端口接受数据的来源每一个Split切片分配一个MapTask，默认情况下切片大小=blocksize(128M)，每一个文件都是单独进行切片的通过RecordReader类，把每个InputSplit解析成一个个<k1,v1>...
MapReduce中map阶段和reduce阶段以及shuffle过程内部工作机制记录
2020-08-20 10:26

yimenglin的博客 mapTask工作原理：我们在写job任务时，指定一个FileInputFormat，设置一个路径，FileInputFormat类继承InputFormat（一个抽象接口），里面提供了一个抽象方法getSplits（），FileInputFormat中重写该方法的逻辑，对...
java map reduce 原理_MapReduce实现原理详解
2021-03-17 23:58

weixin_39644494的博客 MR简介一个MR作业通常会把输入的数据集切分为若干独立的数据块，先由Map任务并行处理，然后MR框架对Map的输出先进行排序，然后把结果作为Reduce任务的输入。MR框架是一种主从框架，由一个单独的JobTracker节点和多个...
reduce 数据倾斜_MapReduce 数据倾斜原因和解决方案
2020-12-20 10:09

weixin_40007804的博客数据经过 map后，由于不同key 的数据量分布不均，在shuffle 阶段中通过 partition 将相同的 key 的数据打上发往同一个 reducer 的标记，然后开始 spill （溢写）写入磁盘，最后merge成最终map阶段输出文件。...
Map reduce的执行原理
2018-12-11 15:00

1. 多个 Map 任务的输出，按照不同的分区，通过网络 copy 到不同的 Reduce 节点上。 2. 对多个 Map 的输出进行合并、排序。覆盖 reduce 函数，接收的是分组后的数据，实现自己的业务逻辑。 3. 对 Reduce 输出的,v>写...
Hadoop-06 MapReduce中map和reduce阶段执行过程总结
2020-06-22 11:14

起名真的费脑子的博客单文件统计单词出现的次数 map和reduce的阶段分析
Map输出和 Reduce读取
2019-11-15 08:32

睡覺了的博客 Map的输出到内存： Map的输出先写入环形缓冲区（默认大小100M-可以人为调整）（可以再输出的同时写入数据），当缓冲区内的数据达到阈值（默认0.8-可以人为调整）时，对数据进行flash。 flash 出去的数据的 ...
Map-Reduce Framework参数说明
2018-11-13 16:53

蒙奇奇的故事的博客 Combiner是为了减少尽量减少需要拉取和移动的数据，所以combine输入条数与map的输出条数是一致的。 Combine output records 经过Combiner后，相同key的数据经过压缩，在map端自己解决了很多重复数据，表示最终...
MapTask和ReduceTask 运行的底层细节 shuffle-map阶段和 shuffle-reduce阶段？？？？
2019-08-16 10:42

吴香香的博客首先开始的是 shuffle-map阶段的流程依据上图讲解 ...map的输出结果是多个键值对（key和value），将由reduce合并，而集群中有多个reduce。map中会根据区间算法（计算key的哈希值，再对reduce数量...
没有解决我的问题, 去提问

reduce阶段copy map输出数据细节问题

1条回答 默认 最新

1条回答默认最新