Pyspark DataFrame 是怎么画DAG图的？

如以下代码片段：

pd_df = pd.DataFrame(it)
df = spark.createDataFrame(pd_df, schema). \
    filter("status = 6 AND power > 1000 AND speed >=6 AND speed <=20"). \
    withColumn('device_code', F.lit(code))
df.show(1)
if df.count() > 0:
    li.append(df)

在UI界面显示的show作业的DAG图为

图片说明

count作业的DAG图为

图片说明

为什么在count作业就存在数据混洗？

count 和 show第一阶段应该都是指将python df转为spark df的过程把？为什么操作的并行度不一样？

count第二阶段为什么只有一个task？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2020-09-26 16:00
关注
https://blog.csdn.net/qq_27575895/article/details/95003484

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【pyspark学习从入门到精通7】DataFrames_2
2024-10-13 16:12

水木流年追梦的博客通常，您会通过使用 SparkSession（或在 PySpark shell 中调用 spark）导入数据来创建 DataFrame。我们将讨论如何将数据导入到本地文件系统、Hadoop 分布式文件系统（HDFS）或其他云存储系统（例如，S3 或 WASB）。...
Spark笔记（pyspark）
2022-02-01 21:33

galaxy‘的博客 SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAG调度（DAGScheduler）进行解析，将DAG图分解成多个“阶段”，并且计算出各个阶段之间的依赖关系，然后把一个个“任务集”提交给底层的任务调度器（Task...
2024 AI 人工智能完整学习路线表
2024-09-14 10:46

光子AI的博客本阶段讲解，人工智能的应用，人工智能的工作流程、基本概念，人工智能的任务和本质，KNN最近邻算法。本阶段讲解，python基础语法，Numpy科学计算模块，Pandas数据分析模块，Matplotlib和Seaborn数据可视化模块。本...
PySpark性能调优手册：大数据处理中的避坑与实践
2025-06-05 12:06

「已注销」的博客在数据规模爆炸性增长的时代，PySpark作为Python与Spark的结合体，凭借其强大的分布式计算能力与开发便利性，已成为企业大数据处理的核心工具。然而，未经优化的PySpark作业极易陷入性能泥潭，消耗远超预期的计算...
数据分析自动化时代，AI应用架构师如何用工具链领跑？
2025-08-03 21:10

AI云原生与云计算技术学院的博客随着大数据、AI技术的普及，企业对数据分析的需求从“事后总结”转向“实时决策”，从“人工分析”转向“自动输出”。如何用工具链将数据从“ raw 材料”转化为“ AI 产品”，实现端到端的自动化。本文将覆盖工具链...
Spark集群搭建与PySpark开发环境配置
2025-12-26 16:34

向沙托夫问好的博客详细记录了Spark Standalone集群的启动流程，通过jps验证Worker进程，并使用spark-submit在Standalone...结合Anaconda、Jupyter及PyCharm配置远程开发环境，实现PySpark的交互式开发与调试，适合大数据初学者实践参考。
智能库存优化AI系统架构设计：如何实现库存优化策略的A_B测试架构？
2026-01-02 22:54

AI智能探索者的博客智能库存优化AI系统的A/B测试架构设计：从理论到落地的系统化方法元数据框架标题：智能库存优化AI系统的A/B测试架构设计：从理论到落地的系统化方法关键词：智能库存优化、A/B测试架构、因果推断、分层随机化、...
人工智能训练师如何做数据采集和处理？
2025-02-21 19:06

小宝哥Code的博客通过这些方法，人工智能训练师可以高效采集和处理训练数据，为 AI 模型提供。数据增强可以提高模型的泛化能力，尤其在计算机视觉和 NLP 领域。在 AI 训练数据的采集和预处理之后，人工智能训练师还需要。在 AI 训练...
大数据领域分布式计算的人工智能融合
2025-09-04 23:00

AI大模型应用之禅的博客当我们谈论“AI”时，更多关注数据驱动的智能决策。但在实际业务中，两者的边界正在快速消融——要训练一个精准的推荐模型，需要处理PB级的用户行为数据，单机算力根本扛不住；要实现实时 fraud 检测，需要在毫秒级...
《PySpark大数据分析实战》-04.了解Spark
2023-12-12 11:24

wux_labs的博客大家好！今天为大家分享的是《PySpark大数据分析实战》第1章第4节的内容：了解Spark。
没有解决我的问题, 去提问

Pyspark DataFrame 是怎么画DAG图的？

1条回答 默认 最新

1条回答默认最新