wahoo0301 2020-04-28 10:21 采纳率: 0%
浏览 336
已结题

Pyspark DataFrame 是怎么画DAG图的?

如以下代码片段:

pd_df = pd.DataFrame(it)
df = spark.createDataFrame(pd_df, schema). \
    filter("status = 6 AND power > 1000 AND speed >=6 AND speed <=20"). \
    withColumn('device_code', F.lit(code))
df.show(1)
if df.count() > 0:
    li.append(df)

在UI界面显示的show作业的DAG图为

图片说明

图片说明

图片说明

count作业的DAG图为

图片说明

图片说明

图片说明

为什么在count作业就存在数据混洗?

count 和 show第一阶段应该都是指将python df转为spark df的过程把?为什么操作的并行度不一样?

count第二阶段为什么只有一个task?

  • 写回答

1条回答 默认 最新

  • dabocaiqq 2020-09-26 16:00
    关注
    评论

报告相同问题?

悬赏问题

  • ¥15 Opencv配置出错
  • ¥15 模电中二极管,三极管和电容的应用
  • ¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
  • ¥15 气象网格数据与卫星轨道数据如何匹配
  • ¥100 java ee ssm项目 悬赏,感兴趣直接联系我
  • ¥15 微软账户问题不小心注销了好像
  • ¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
  • ¥15 curl 命令调用正常,程序调用报 java.net.ConnectException: connection refused
  • ¥20 关于web前端如何播放二次加密m3u8视频的问题
  • ¥15 使用百度地图api 位置函数报错?