baidu_38615724 2017-05-02 07:35 采纳率: 0%
浏览 3547

MapReduce Shuffle中的溢写阶段疑问

MapReduce Shuffle中溢写到本地磁盘的操作,它会设置一个阈值,默认是80%,想问下是不是最终不管有没有达到这个设定的阈值它都会触发溢写操作?比如运行一个wordcount,测试的文件数据就几行单词,这都没达到100MB内存中的80%,最终程序仍然是运行完成的,在这边有些疑惑

  • 写回答

2条回答 默认 最新

  • pekingK 2017-05-25 02:34
    关注

    MapReduce 的Shuffle阶段的溢写阶段,分两类:1、环形缓冲区的数据到达80%时,就会溢写到本地磁盘,当再次达到80%时,就会再次溢写到磁盘,
    直到最后一次,不管环形缓冲区还有多少数据,都会溢写到磁盘。然后会对这多次溢写到磁盘的多个小文件进行合并,减少Reduce阶段的网络传输。
    2.就是没有达到80%map阶段就结束了,这时直接把环形缓冲区的数据写到磁盘上,供下一步合并使用。

    评论

报告相同问题?

悬赏问题

  • ¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题:[h264 @ 000000004faf7500]no frame?
  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 运筹学排序问题中的在线排序
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥30 求一段fortran代码用IVF编译运行的结果
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛