3条回答 默认 最新
爱吃苦瓜的猿 2022-08-24 22:30关注使用pyspark实现参考如下,主要是利用spark-sql的功能来实现统计,一行sql非常简单。
# 读取json数据 yiqing_data=spark.read.json("file:///home/work/yiqing.json") # 将读取数据转成一个临时表(便于直接使用sql统计) yiqing_data.createTempView("tmp_yiqing") # 使用spark-sql进行求和统计(这里只有一天就这样统计,如果数据里面有日期字段可以根据日期进行groupby求和统计) yiqing_stat=spark.sql("select '2022-08-24' as dt, sum(confirmedCount) as confirmedCount_sum,sum(currentConfirmedCount) as currentConfirmedCount_sum,sum(suspectedCount) as suspectedCount_sum,sum(curedCount) as curedCount_sum,sum(deadCount) as deadCount_sum from tmp_yiqing") # 打印出来统计结果 yiqing_stat.collect()
解决评论 打赏 举报 编辑记录无用 1

