在spark中的窄依赖为什么用不到shuffle

学习spark时，学到rdd的依赖，宽依赖需要进行shafful阶段，那为什么窄依赖用不到，我自己感觉是因为窄依赖本身就是每一个parent RDD的Partition最多被子RDD的一个Partition使用而且只是转换到另一个形式不需要涉及到shuffle，不知道自己的想法对不对，请大神指正

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lshen01 2023-03-19 22:15
关注
参考GPT和自己的思路：

您的理解是正确的。在Spark中，窄依赖是指每个parent RDD的Partition最多只被子RDD的一个Partition使用，而且它们之间的转换不需要数据的重组或移动，因此不需要进行shuffle阶段。相比之下，宽依赖需要将数据重组或移动，以便在子RDD中进行处理，因此需要进行shuffle阶段。所以，对于窄依赖，Spark能够非常高效地执行转换操作，而无需付出shuffule的代价。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何在IntelliJ IDEA中安装完scala后，spark包报红？ intellij-idea spark
2022-04-19 11:52

回答 2 已采纳依赖和依赖的版本都要对上
怎么在虚拟环境中，用spark的知识分析并可视化？ hadoop python spark
2022-12-12 22:34

回答 1 已采纳中文不显示可能是编码格式的问题，
为什么要用spark-submit提交任务？ spark
2022-09-16 19:01

回答 1 已采纳因为spark是计算引擎，你是将你的代码提交到spark上运行，不是运行spark程序
Spark宽依赖窄依赖的区别
2023-10-03 10:45

话数Science的博客子RDD的一个分区依赖了父RDD的多个分区，即多个子RDD的分区数据依赖父RDD的同一个分区的数据。NarrowDependency ：parent RDD 的一个或多个分区的数据全部流入到 child RDD 的一个或多个分区；ShuffleDependency： ...
Xshell中txt中的中文大小不一，spark横线不全 spark 其他
2022-05-13 11:32

回答 1 已采纳换个字体吧，big5是繁体字的编码。
为什么在spark启动了history-service没报错，可是就是没这个节点 spark 有问必答
2021-11-11 21:18

回答 2 已采纳你是缺少什么配置了吧，参考一下我的文档
hive中无法查看spark创建的表 hadoop hive spark 有问必答
2021-06-25 12:55

回答 1 已采纳你切到对应的数据库吗，xshell只是远程工具。
Spark宽依赖和窄依赖深度剖析
2021-03-12 15:12

风情客家__的博客 Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系，产生宽依赖时就会产生新的stage。 1. 窄依赖与宽依赖针对不同的转换函数，RDD之间的依赖关系...
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
为什么查看spark的web页面没响应 centos linux scala
2020-06-21 16:13

回答 1 已采纳 https://blog.csdn.net/weixin_43866709/article/details/88410017
Spark中窄依赖详细介绍
2023-08-18 19:06

海洋之心的博客在Spark中，依赖关系描述了不同RDD（Resilient Distributed Dataset）之间的关系，它们确定了RDD之间的计算逻辑和数据流动路径。依赖关系可以分为两种类型：窄依赖（Narrow Dependency）和宽依赖（Wide Dependency，...
spark中修改sbt文件的权限有什么用 scala spark
2018-02-04 06:47

回答 3 已采纳对sbt文件的所有者增加可执行权限
深入解读 Spark 宽依赖和窄依赖（ShuffleDependency & NarrowDependency）
2021-01-06 23:18

因特马的博客目前，网上有关宽窄依赖的博客大多都使用下面这张图作为讲解...我们知道，在 Spark 中，数据抽象表示为统一的数据模型 RDD。每一次对 RDD 进行转换（Transformation）操作，我们都会得到一个新的 RDD。例如，rdd2 = rd
Spark的宽依赖和窄依赖
2022-09-07 16:14

科学的N次方的博客 spark的宽依赖和窄依赖
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥15 stable diffusion
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条

在spark中的窄依赖为什么用不到shuffle

1条回答 默认 最新

悬赏问题

1条回答默认最新