wahoo0301 2020-04-28 10:21 采纳率: 0%
浏览 336
已结题

Pyspark DataFrame 是怎么画DAG图的?

如以下代码片段:

pd_df = pd.DataFrame(it)
df = spark.createDataFrame(pd_df, schema). \
    filter("status = 6 AND power > 1000 AND speed >=6 AND speed <=20"). \
    withColumn('device_code', F.lit(code))
df.show(1)
if df.count() > 0:
    li.append(df)

在UI界面显示的show作业的DAG图为

图片说明

图片说明

图片说明

count作业的DAG图为

图片说明

图片说明

图片说明

为什么在count作业就存在数据混洗?

count 和 show第一阶段应该都是指将python df转为spark df的过程把?为什么操作的并行度不一样?

count第二阶段为什么只有一个task?

  • 写回答

1条回答 默认 最新

  • dabocaiqq 2020-09-26 16:00
    关注
    评论

报告相同问题?