spark清洗JSON数据

需求：用spark进行清洗，结果类似下图➕要清洗的代码，能加注释的加上注释。
数据链接：https://share.weiyun.com/BadLnWZX

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

爱吃苦瓜的猿 2022-08-24 22:30

关注

使用pyspark实现参考如下,主要是利用spark-sql的功能来实现统计,一行sql非常简单。

# 读取json数据
yiqing_data=spark.read.json("file:///home/work/yiqing.json")

# 将读取数据转成一个临时表(便于直接使用sql统计)
yiqing_data.createTempView("tmp_yiqing")

# 使用spark-sql进行求和统计(这里只有一天就这样统计,如果数据里面有日期字段可以根据日期进行groupby求和统计)
yiqing_stat=spark.sql("select '2022-08-24' as dt, sum(confirmedCount) as confirmedCount_sum,sum(currentConfirmedCount) as currentConfirmedCount_sum,sum(suspectedCount) as suspectedCount_sum,sum(curedCount) as curedCount_sum,sum(deadCount) as deadCount_sum from tmp_yiqing")

# 打印出来统计结果
yiqing_stat.collect()

编辑记录

报告相同问题？

关注问题

大数据期末课设~基于spark的气象数据处理与分析
2022-12-14 01:47

总结，这个项目不仅涵盖了Spark的大数据处理技术，包括数据获取、数据清洗、数据分析和数据可视化，同时也体现了大数据在气象领域的应用价值。通过这样的实践，学生能够掌握大数据处理流程，并了解如何利用大数据...
Spark 数据清洗
2025-03-21 14:24

九口鸦的博客 Apache Spark 是一个快速通用的集群计算系统，它提供了高效的数据处理能力，...通过以上示例，我们展示了如何使用 Java 结合 Spark 进行常见的数据清洗操作，包括缺失值处理、重复值处理、异常值处理和数据类型转换等。
Spark在大数据ETL中的应用：数据清洗与转换实战
2025-05-07 14:30

光子AI的博客 Spark凭借内存计算、分布式架构和对结构化/非结构化数据的统一处理能力，成为大数据ETL的事实标准。本文聚焦Spark在数据清洗（Data Cleaning）与转换（Data Transformation）阶段的核心应用，覆盖从基础操作到复杂...
大数据——Spark高级操作之Json复杂和嵌套数据结构的操作及进行Json文件的数据清洗
2020-11-25 09:45

蜂蜜柚子加苦茶的博客 Spark高级操作之Json复杂和嵌套数据结构的操作Json数据结构操作 Json数据结构操作本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在...
基于Spark的数据清洗与转换
2022-07-04 01:16

不懂开发的程序猿的博客掌握数据整合、数据清洗和数据转换方法。1、整合来自不同数据源的数据。 2、对数据进行清洗。 3、对数据进行转换。数据质量一直是业界普遍存在的问题。不正确或不一致的数据的存在可能会对分析产生误导。90%...
【大数据】数据分析之Spark框架介绍
2024-10-06 19:51

问道飞鱼的博客 Spark是一种快速、通用、可扩展的大数据分析引擎，它基于内存计算的大数据并行计算框架，能够显著提高大数据环境下数据处理的实时性，同时保证高容错性和高可伸缩性。上面的示例代码展示了如何使用 Java 编写 Spark ...
Doris与Spark集成：构建大数据批流一体平台
2025-09-07 03:25

AIGC应用创新大全的博客本文旨在解决企业“批处理与流处理割裂”的痛点，通过Doris与Spark的集成，实现一套架构处理两类数据（批量历史数据+实时流数据），最终达到“数据实时可见、分析实时可用”的目标。Doris与Spark的核心概念解析；...
大数据领域数据清洗的工具推荐
2025-12-28 22:59

AI 小程序开发2020的博客本文聚焦大数据场景下的数据清洗工具，覆盖从中小规模数据（MB到GB级）到超大规模数据（TB到PB级）的清洗需求，涵盖技术型工具（如Spark、Pandas）、交互式工具（如OpenRefine）、企业级工具（如Talend、Trifacta）...
spark读取json文件
2021-12-21 14:31

月亮给我抄代码的博客 tips:在spark2.0版本之后，SparkConf、SparkContext和SQLContext都已经被封装在SparkSession当中。测试文本内容 {"name":"jack","age":20} {"name":"zhangsan","age":19} {"name":"lisi","age":25} {"name":...
基于Spark在大数据领域实现数据可视化
2025-08-29 20:34

大厂资深架构师的博客在当今数字化时代，大数据的规模呈爆炸式增长。从互联网用户的行为数据到企业的运营数据，海量的数据蕴含...本文章的目的在于探讨如何利用Spark强大的数据处理能力，结合数据可视化技术，实现大数据的有效展示和分析。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月24日
展开全部

spark清洗JSON数据

3条回答 默认 最新

问题事件

3条回答默认最新