似渊※ 2021-05-31 18:52 采纳率: 0%
浏览 14

在spark中的窄依赖为什么用不到shuffle

学习spark时,学到rdd的依赖,宽依赖需要进行shafful阶段,那为什么窄依赖用不到,我自己感觉是因为窄依赖本身就是每一个parent RDD的Partition最多被子RDD的一个Partition使用而且只是转换到另一个形式不需要涉及到shuffle,不知道自己的想法对不对,请大神指正

  • 写回答

1条回答 默认 最新

  • lshen01 2023-03-19 22:15
    关注

    参考GPT和自己的思路:

    您的理解是正确的。在Spark中,窄依赖是指每个parent RDD的Partition最多只被子RDD的一个Partition使用,而且它们之间的转换不需要数据的重组或移动,因此不需要进行shuffle阶段。相比之下,宽依赖需要将数据重组或移动,以便在子RDD中进行处理,因此需要进行shuffle阶段。所以,对于窄依赖,Spark能够非常高效地执行转换操作,而无需付出shuffule的代价。

    评论

报告相同问题?

悬赏问题

  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥15 stable diffusion
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条