学习spark时,学到rdd的依赖,宽依赖需要进行shafful阶段,那为什么窄依赖用不到,我自己感觉是因为窄依赖本身就是每一个parent RDD的Partition最多被子RDD的一个Partition使用而且只是转换到另一个形式不需要涉及到shuffle,不知道自己的想法对不对,请大神指正
1条回答 默认 最新
- lshen01 2023-03-19 22:15关注
参考GPT和自己的思路:
您的理解是正确的。在Spark中,窄依赖是指每个parent RDD的Partition最多只被子RDD的一个Partition使用,而且它们之间的转换不需要数据的重组或移动,因此不需要进行shuffle阶段。相比之下,宽依赖需要将数据重组或移动,以便在子RDD中进行处理,因此需要进行shuffle阶段。所以,对于窄依赖,Spark能够非常高效地执行转换操作,而无需付出shuffule的代价。
解决 无用评论 打赏 举报
悬赏问题
- ¥15 #MATLAB仿真#车辆换道路径规划
- ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
- ¥15 数据可视化Python
- ¥15 要给毕业设计添加扫码登录的功能!!有偿
- ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
- ¥15 微信公众号自制会员卡没有收款渠道啊
- ¥15 stable diffusion
- ¥100 Jenkins自动化部署—悬赏100元
- ¥15 关于#python#的问题:求帮写python代码
- ¥20 MATLAB画图图形出现上下震荡的线条