大佬在上,请收我 2022-08-24 10:53 采纳率: 40%
浏览 87
已结题

spark清洗JSON数据

  • img

需求:用spark进行清洗,结果类似下图➕要清洗的代码,能加注释的加上注释。
数据链接:https://share.weiyun.com/BadLnWZX

img

  • 写回答

3条回答 默认 最新

  • 爱吃苦瓜的猿 2022-08-24 22:30
    关注

    使用pyspark实现参考如下,主要是利用spark-sql的功能来实现统计,一行sql非常简单。

    # 读取json数据
    yiqing_data=spark.read.json("file:///home/work/yiqing.json")
    
    # 将读取数据转成一个临时表(便于直接使用sql统计)
    yiqing_data.createTempView("tmp_yiqing")
    
    # 使用spark-sql进行求和统计(这里只有一天就这样统计,如果数据里面有日期字段可以根据日期进行groupby求和统计)
    yiqing_stat=spark.sql("select '2022-08-24' as dt, sum(confirmedCount) as confirmedCount_sum,sum(currentConfirmedCount) as currentConfirmedCount_sum,sum(suspectedCount) as suspectedCount_sum,sum(curedCount) as curedCount_sum,sum(deadCount) as deadCount_sum from tmp_yiqing")
    
    # 打印出来统计结果
    yiqing_stat.collect()
    

    img

    评论 编辑记录

报告相同问题?

问题事件

  • 系统已结题 9月1日
  • 修改了问题 8月24日
  • 修改了问题 8月24日
  • 修改了问题 8月24日
  • 展开全部