weixin_43113933 2019-09-19 16:45 采纳率: 58.3%
浏览 345
已采纳

map Join的一个问题,要疯了,求一个通俗的解释

图片说明
图片说明
图片说明
“把连接结果按key输出,经过shuffle阶段,reduce端得到的就是已经按key分组的,并且连接好了的数据”。

图片说明

我理解为都是join,mapjoin在shuffle之前连接,reduce是shuffle之后连接
谁能举个例子吗,这样怎么就提高了效率呢,就因为shuffle前和shuffle后连接的区别导致的效率问题吗,这是适用与小表和大表连接的场景,顺便希望各路大佬帮忙说一下为什么reducejoin适合大表连接大表的场景,越详细越好,感谢回答问题的各位

  • 写回答

1条回答 默认 最新

  • 关注
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 已采纳回答 9月25日

悬赏问题

  • ¥15 ROS Turtlebot3 多机协同自主探索环境时遇到的多机任务分配问题,explore节点
  • ¥15 Matlab怎么求解含参的二重积分?
  • ¥15 苹果手机突然连不上wifi了?
  • ¥15 cgictest.cgi文件无法访问
  • ¥20 删除和修改功能无法调用
  • ¥15 kafka topic 所有分副本数修改
  • ¥15 小程序中fit格式等运动数据文件怎样实现可视化?(包含心率信息))
  • ¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops?
  • ¥40 串口调试助手打开串口后,keil5的代码就停止了
  • ¥15 电脑最近经常蓝屏,求大家看看哪的问题