如何用spark将带有union类型的avro消息存入hive

我现在是用spark streaming 读取kafka中的avro消息，反序列化后希望使用spark sql存入hive或者hdfs
但是不管我是将avro转成json还是case class，即使在DStream.print能够正确打印出来，使用spark.foreachRdd进行后续操作时都会报错。

我找了第三方包，将avdl文件转成caseclass，由于avro中存在union(record,record,record)的类型，所以case class是带有shapeless的类型的，在转成spark后会报 is not a term的错误
这一次是使用json4s将对象转换成了json，同样，在DStream.print能够正确打印，但是进入spark.foreachRdd后就会报错，no value for 'BAD', 不知道是不是因为不同的json中有一些属性是null，有一些不是null
这一次我直接使用avro的tostring，和不同的是，在DStream中能打印，进入foreachRdd也并没有报错，但是部分json显示是corrupt.

第二和第三的json我把打印出来的字符串放入json文件里，使用spark.read.json读都是完全没问题的，我就有点搞不明白了，各位大神，有办法能够处理吗?
大家如果有这种需求一般是如何做的呢？
Code Snippet:

def main {
val kafkaStream = KafkaUtils.createDirectStream[String, Array[Byte]](ssc, PreferConsistent,
Subscribe[String, Array[Byte]](topics, kafkaParams))

println("Schema:" + schema)
val stream = deserialize(config, kafkaStream)

process(approach, isPrint, stream)
ssc.start()
ssc.awaitTermination()
}

def process(approach: Int, isPrint: Boolean, stream: DStream[DeserializedFromKafkaRecord]): Unit = {
approach match {
/**
* Approach 1 avrohugger + avro4s
* Convert GenericData into CaseClass
*/
case 1 => {
val mappedStream = stream.map(record => {
val format = RecordFormat[A]
val ennio = format.from(record.value)
ennio
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = rdd.toDF()
df.show()
}

})
}
}
/**
* Approach 2 avro4s + json4s
* Convert CaseClass into Json
*/
case 2 => {
val mappedStream = stream.map(record => {
val format = RecordFormat[A]
val ennio = format.from(record.value)
implicit val formats = DefaultFormats.preservingEmptyValues
write(ennio)
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = spark.read.json(spark.createDataset(rdd))
df.show()
}

})
}
}
/**
* Approach 3
* Convert GenericData into Json
*/
case 3 => {
val mappedStream = stream.mapPartitions(partition => {
partition.map(_.value.toString)
})
if (isPrint) {
mappedStream.print()
}else {
mappedStream.foreachRDD(foreachFunc = rdd => {
if (!rdd.partitions.isEmpty) {
val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate()
import spark.implicits._
val df = spark.read.json(spark.createDataset(rdd))
df.show()
}

})
}
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

在go中使用Kafka Avro消息
2016-11-11 13:20

回答 2 已采纳 Just found out (by comparing binary avro messages) that I had to remove the first 5 elements of th
[HDFS]hive表文件下的.metadata文件夹是什么？ hdfs hive java sqoop 大数据
2018-06-13 06:26

回答 1 已采纳 metadata就是元数据，用来存放表结构、字段信息之类的，用来描述数据的数据。另外eclipse也有自己的metadata，你要看看是哪个metadata缺失了。
高分悬赏 apache avro数据 C与Java通信序列化问题 apache java
2017-08-07 02:38

回答 2 已采纳已经找到解决办法。还是因为对API不熟造成的。avro 有方法能够解析无scheam的文件。前提是在类方法中指定一个scheam进行解析。大致方法如下。 public static List
hive文件存储格式orc,parquet,avro对比
2019-10-13 19:01

zdsg1024的博客高版本的hive，可以直接使用avro格式存储，而不需要手动指定avro的schema文件，hive自己会根据table的创建方式自行解析并将schema存储到文件的头部 parquet，avro，orc存储格式对比相同点基于Hadoop...
Flume接收来自AvroSource信息 flume 大数据
2023-03-24 23:50

回答 1 已采纳根据您提供的信息，我们可以初步分析出可能出现错误的步骤：1. AvroSource的配置是否正确，包括IP地址、端口号等信息是否正确设置；2. Flume的配置是否正确，包括source、channe
FileNotFoundException: File does not exist java linux mysql ubuntu
2021-02-14 17:26

回答 1 已采纳看看这个： https://blog.csdn.net/wangshuminjava/article/details/80179648
flume执行配置文件的时候显示权限不够 flume
2022-05-12 09:10

回答 1 已采纳进入目录bin/flume-ng赋权chmod +x flume-ng
大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经
2021-12-05 15:47

For Coding的博客大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经
关于厦门大学林子雨的实验 sqoop导入到 mysql中发生的错误 hadoop mysql sqoop 有问必答
2021-12-01 16:09

回答 2 已采纳 File does not exist: hdfs://localhost:9000/usr/local/sqoop/lib/parquet-avro-1.4.1.jar 你最后一行不是有提示了么，文
eclipse如何配置schema
2016-10-17 02:31

回答 1 已采纳在eclipse中配置spring 自定义的schema文件　　问题：使用了spring自定义schema时，在xml文件中无法自动提示自定义的tag。　　解决：在eclipse中设置：
无法使golang和包bigquery正常工作以加载到大查询
2018-10-26 15:48

回答 1 已采纳 The panic is probably coming from a nil pointer reference to the job variable. I would suggest in
Flume+Spark+Hive+Spark SQL离线分析系统
2018-09-18 00:07

花和尚也有春天的博客当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，Spark Streaming 组件做实时计算，和Kafka等消息系统也有很好的兼容性；Spark Sql，可以让用户通过标准SQL语句操作从不同的数据源中过来的结构...
定时任务执行一段时间JVM会自动退出问题，急求大神帮忙。
2014-05-12 09:38

回答 3 已采纳通过这段 [quote] Current thread (0x00007f4b4c070000): VMThread [stack: 0x00007f4b486f7000,0x00007f4b4
Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集
2023-05-11 16:31

howard2005的博客 1. 了解Spark SQL的基本概念； 2. 掌握DataFrame的基本概念； 3. 掌握Dataset的基本概念； 4. 会基于DataFrame执行SQL查询
Hive/HiveQL常用优化方法全面总结（下篇）
2021-06-29 11:32

码农老K的博客优化SQL处理join数据倾斜上篇已经多次提到了数据倾斜...这种情况很常见，比如当事实表是日志类数据时，往往会有一些项没有记录到，我们视情况会将它置为null，或者空字符串、-1等。如果缺失的项很多，在做join时这...
linux怎么看文件是否orc格式,hive文件存储格式orc,parquet,avro对比
2021-05-17 14:46

weixin_39836530的博客高版本的hive，可以直接使用avro格式存储，而不需要手动指定avro的schema文件，hive自己会根据table的创建方式自行解析并将schema存储到文件的头部 parquet，avro，orc存储格式对比相同点基于Hadoop文件系统优化...
超全面试汇总——Hive 超详细!!!带答案!!!持续更新中~
2021-04-30 08:40

jialun0116的博客 Hive结构描述Hive的优势内部表、外部表、分区表、分桶表hive中排序的种类和适用场景动态分区和静态分区的区别 + 使用场景hive 语句执行顺序Hive的几种存储方式列式存储的好处HQL转化为MapReduce的过程Hive 和关系型...
Spark_sql&Spark_streaming从入门到精通
2022-04-04 20:25

kuokay的博客 1、Spark SQL 概述 Spark SQL概念 ...Shark：shark底层使用spark的基于内存的计算模型，从而让性能比Hive提升了数倍到上百倍。底层很多东西还是依赖于Hive，修改了内存管理、物理计划、执行三个模块 2014年
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

码龄粉丝数原力等级 --

如何用spark将带有union类型的avro消息存入hive

0条回答

悬赏问题