为什么Spark只会惰性计算RDD？

为什么Spark只会惰性计算RDD？为什么只有第一次在一个行动操作中用到时，才会真正计算？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
玄尺 2018-11-08 12:24
关注
这个问题本质上讲很复杂，这是spark设计上必须要这么做，不然spark就无法干掉mapreduce。
1. 首先我们需要理解这惰性计算
spark将对RDD的操作分为transformation和action，action一共只有五个操作：save、count、collect、lookup、reduce。当然像distinct这种操作我们认为它是复合操作，中间过程包括reduce。
只有当action执行，才会整理计算逻辑，创建job，并生成DAG，然后在DAG根据shuffle操作（宽依赖、窄依赖）更细粒度的拆分stage，启动相应数量的task计算中间结果，stage by stage的计算，就这样支撑了整个spark计算的框架。
2. 这种惰性计算是最优做法
所谓的惰性计算，其实只是表象，本质上都是并行计算（流水线计算），比如map1 -> filter -> map2 -> collect。a1做完map1，进入filter，此时a2进入map1...其实并不是惰性计算。
3. 如果讲到spark设计，本质上这种设计很棒，没什么问题。同时也在考虑一个问题内存管理以及高可用。对于mapreduce来讲，在计算层面不会考虑容灾问题，因为底层hdfs的多副本会保证数据安全，但是spark就没那么幸运了，再设计时不会落盘（尽量不要），那怎么解决容灾问题？RDD采用的是dependency解决，在这种情况下拆分成stage就很好，因为这种粒度大一些，一旦数据丢失只会重启stage。如果不是惰性计算，那就倒霉了，每一个操作都将是一个RDD，对于spark来讲这种粒度太细了，管理起来不容易

解决 3
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
Spark中的RDD是什么？请解释其概念和特点。
2023-09-11 13:00

极客李华的博客最后，RDD采用了延迟计算的策略，只有在需要获取结果时才会进行计算。综上所述，RDD是Spark中的核心抽象，用于表示分布式计算过程中的数据集合。弹性：RDD是弹性的，即可以在内存中缓存数据，并支持容错性。这意味着...
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
大数据--spark生态3--RDD介绍及其算子
2021-06-06 11:04

斑马！的博客一：RDD创建 1.1从文件系统中加载数据创建RDD 采用tex 1.2通过并行集合（数组）创建RDD
dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
如何用spark统计某个关键词? hadoop java java-ee spark
2017-03-06 09:34

回答 2 已采纳貌似不能只搜索目标词,spark会把所有的词都统计
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
大数据分布式计算系统 Spark 入门核心之 RDD
2022-03-22 10:29

恒生LIGHT云社区的博客 Apache Spark 是一个快速且通用的集群计算系统。提供 Java、Scala、Python 和 R 中的高级 API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的 Spark SQL、用于机器...
如何将spark读入的txtRDD文本转为Vector格式 mllib spark 机器学习
2018-11-19 09:05

回答 1 已采纳 https://blog.csdn.net/coding01/article/details/81512430
SparkRDD之——RDD概述
2021-05-18 16:06

冉半夏生的博客 1、什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 ①弹性： ...
Spark 中的RDD该怎么理解？
2022-01-09 22:02

小林玩大数据的博客 Spark 开篇！
没有解决我的问题, 去提问

悬赏问题

¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题

为什么Spark只会惰性计算RDD？

3条回答 默认 最新

悬赏问题

3条回答默认最新