spark sql中处理json嵌套数组的方法

各位大神刚开始学spark sql想处理json数据，一般的json数据没问题，但是当json串中有json嵌套数组时，就不太清楚怎样获取这个数据里每一项的数据，请各位指点。格式如
{"name":"Yin","address":[{"city":"Columbus","state":"防守打法"},{"city":"Columbus2","state":"防守打法"}]}我想获取address中的每一个数据项，应该怎么弄比较好？谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

liangxiaoxia 2017-06-19 06:59

关注

别沉了，补个代码
val conf =new SparkConf().setAppName("test2").setMaster("local")
val sc =new SparkContext(conf)
var sqlContext= new SQLContext(sc)

    var anotherPeopleRDD=sc.parallelize("""{"name":"Yin","address":[{"city":"Columbus","state":"http://www.tom.com"},{"city":"Columbus2","state":"http://www.tom.com.cn"}]}"""::Nil)

sqlContext.udf.register("testaddress",(arr:Array[Row])=>{
})

val anotherPeople = sqlContext.jsonRDD(anotherPeopleRDD)
anotherPeople.printSchema
anotherPeople.registerTempTable("people")
val pairs = sqlContext.sql("select testaddress(address) from people ")
pairs.collect()

    我想用udf 但是总报错：
    java.lang.ClassCastException: scala.collection.mutable.WrappedArray$ofRef cannot be cast to [Lorg.apache.spark.sql.Row;
at com.dwnews.DMP.ETL.service.FileFilterService$$anonfun$test2$1.apply(FileFilterService.scala:100)
at org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$2.apply(ScalaUDF.scala:75)
at org.apache.spark.sql.catalyst.expressions.ScalaUDF$$anonfun$2.apply(ScalaUDF.scala:74)
at org.apache.spark.sql.catalyst.expressions.ScalaUDF.eval(ScalaUDF.scala:964)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$SpecificMutableProjection.apply(Unknown Source)
at org.apache.spark.sql.execution.Project$$anonfun$1$$anonfun$apply$2.apply(basicOperators.scala:55)
at org.apache.spark.sql.execution.Project$$anonfun$1$$anonfun$apply$2.apply(basicOperators.scala:53)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at scala.collection.Iterator$class.foreach(Iterator.scala:727)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1157)
at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:48)
at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:103)
at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:47)
at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:273)
at scala.collection.AbstractIterator.to(Iterator.scala:1157)
at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:265)
at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1157)
at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:252)
at scala.collection.AbstractIterator.toArray(Iterator.scala:1157)
at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$12.apply(RDD.scala:909)
at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$12.apply(RDD.scala:909)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1850)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1850)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
at org.apache.spark.scheduler.Task.run(Task.scala:88)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

报告相同问题？

关注问题

spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark json数据写入mysql数据库问题 json mysql spark
2022-01-25 09:53

回答 1 已采纳问题已解决：参考这个=====>https://blog.csdn.net/weixin_43753599/article/details/122697542?spm=1001.2014.300
spark 处理复杂嵌套json 方法
2022-02-27 11:03

远方时光的博客 Spark高级操作之json复杂和嵌套数据结构的操作二_...(38条消息) spark sql操作复杂嵌套数组 json数据_mys_35088的博客-CSDN博客 Spark高级操作之json复杂和嵌套数据结构的操作二 - 云+社区 - 腾讯云 (tencent.com) ...
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
spark sql的执行顺序是什么样的 hadoop hive spark
2022-12-26 21:08

回答 2 已采纳 Spark SQL 的执行顺序通常分为以下几步：解析 SQL 语句：Spark SQL 会先将 SQL 语句解析成内部的表达式树，以便对其进行更好的优化。优化表达式树：在解析后，Spark SQL 会
4.5 Spark SQL 处理JSON数据
2022-04-01 15:17

炫云云的博客带你全面理解Spark大数据。介绍实践静态json数据的读取和操作从json字符串数组得到DataFrame 直接从文件生成DataFrame 动态json数据的读取和操作没有嵌套结构的json 带有嵌套结构的json 深耕于机器学习...
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
求解答：如何使用sparksql进行模糊查询？ scala spark 大数据
2022-05-19 17:16

回答 1 已采纳 SELECT SUBSTR(NAME,1,INSTR(NAME,'(')-1),COUNT(1)FROM (SELECT '顶层(共20层)' NAME UNION ALLSELECT '顶层(共21
spark2/parcels/2.4.0.cloudera2/manifest.json 文件 hadoop spark 有问必答问答团队
2021-06-11 09:45

回答 3 已采纳你看看是这个资源吗，没有积分我可以帮你下载 spark2-2.4.0.cloudera2-1.cdh5.13.3.p0.1041012-el6.zip-互联网文档类资源-CSDN下载 SPARK2
【Spark】使用DataFrame读取复杂JSON中的嵌套数组
2018-06-01 16:52

lubinsu的博客所周知，在早期Spark版本中就已经支持读取Json格式的数据文件，并能够直接转换为数据库表，以方便我们进行处理数据，在本篇文章中我们将介绍如何通过Spark API很简...
spark SQL数据库，双条件汇总求和。 sql
2022-05-08 14:30

回答 1 已采纳直接select *,sum(销售额) 合计销售额 from a group by 类型,日期j就可以了，分组求和啊
大数据——Spark高级操作之Json复杂和嵌套数据结构的操作及进行Json文件的数据清洗
2020-11-25 09:45

蜂蜜柚子加苦茶的博客 Spark高级操作之Json复杂和嵌套数据结构的操作Json数据结构操作 Json数据结构操作本文主要讲spark2.0版本以后存在的Sparksql的一些实用的函数，帮助解决复杂嵌套的json数据格式，比如，map和嵌套结构。Spark2.1在...
dataframe数组做元素_大数据技术之使用 DataFrame 读取复杂 JSON 中的嵌套数组
2020-12-20 20:14

weixin_39935388的博客本篇教程探讨了大数据技术之使用 DataFrame ...并能够直接转换为数据库表，以方便我们进行处理数据，在本篇文章中我们将介绍如何通过SparkAPI很简单地读取Json数据，并进一步讲解，读取复杂Json中的嵌套数组。本次使...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

码龄粉丝数原力等级 --

spark sql中处理json嵌套数组的方法

2条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

spark sql中处理json嵌套数组的方法

2条回答 默认 最新

悬赏问题

2条回答默认最新