spark读取avro序列化的parquet时报错：Illegal Parquet type: FIXED_LEN_BYTE_ARRAY

avro格式定义如下图：
然后spark正常读取生成的parquet则报错：Illegal Parquet type: FIXED_LEN_BYTE_ARRAY。问怎么读取parquet（不一定要用spark）?详细错误如下：
org.apache.spark.sql.AnalysisException: Illegal Parquet type: FIXED_LEN_BYTE_ARRAY;
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.illegalType$1(ParquetSchemaConverter.scala:107)
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convertPrimitiveField(ParquetSchemaConverter.scala:175)
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convertField(ParquetSchemaConverter.scala:89)
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.$anonfun$convert$1(ParquetSchemaConverter.scala:71)
at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:237)
at scala.collection.Iterator.foreach(Iterator.scala:941)
at scala.collection.Iterator.foreach$(Iterator.scala:941)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1429)
at scala.collection.IterableLike.foreach(IterableLike.scala:74)
at scala.collection.IterableLike.foreach$(IterableLike.scala:73)
at scala.collection.AbstractIterable.foreach(Iterable.scala:56)
at scala.collection.TraversableLike.map(TraversableLike.scala:237)
at scala.collection.TraversableLike.map$(TraversableLike.scala:230)
at scala.collection.AbstractTraversable.map(Traversable.scala:108)
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convert(ParquetSchemaConverter.scala:65)
at org.apache.spark.sql.execution.datasources.parquet.ParquetToSparkSchemaConverter.convert(ParquetSchemaConverter.scala:62)
at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.$anonfun$readSchemaFromFooter$2(ParquetFileFormat.scala:664)
at scala.Option.getOrElse(Option.scala:138)
at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.readSchemaFromFooter(ParquetFileFormat.scala:664)
at org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat$.$anonfun$mergeSchemasInParallel$2(ParquetFileFormat.scala:621)
at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:801)
at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:801)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大大怪打LZR 2023-08-13 21:49
关注
根据您提供的错误信息，似乎问题出在Parquet文件的数据类型不匹配上。Parquet文件中的数据类型与读取器（例如Spark）期望的数据类型不一致。

根据您的问题描述，您的Avro架构定义中可能使用了 FIXED 数据类型，而这在Parquet文件中通常对应于 FIXED_LEN_BYTE_ARRAY 类型。然而，Spark 默认情况下可能不支持直接将 Parquet 文件中的 FIXED_LEN_BYTE_ARRAY 数据类型映射到 Spark 数据类型。

为了解决这个问题，您可以考虑以下几种方法：

自定义Schema映射： 尝试使用自定义的Schema映射来将 Parquet 文件中的 FIXED_LEN_BYTE_ARRAY 数据类型转换为Spark支持的数据类型。您可以通过在读取Parquet文件时提供一个自定义的Schema来实现这一点。

升级Spark版本： 有时候问题可能是特定版本的Spark引起的，尝试升级到较新的Spark版本可能会解决某些问题，因为Spark不断在版本中改进Parquet读写支持。

数据转换： 在读取Parquet文件之前，将其转换为适合Spark的数据格式，例如CSV或JSON。然后，您可以使用Spark读取这些转换后的文件。

Parquet工具： 使用Parquet文件的命令行工具，例如Apache Parquet Tools，可以提供关于Parquet文件的更多信息，有时可以揭示出数据类型不匹配的问题。

最好的方法可能会取决于您的具体情况。您还可以根据具体的Avro架构和Parquet文件内容，尝试调整Schema映射或转换数据格式以解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

高分悬赏 apache avro数据 C与Java通信 序列化问题 apache java
2017-08-07 02:38

回答 2 已采纳已经找到解决办法。还是因为对API不熟造成的。avro 有方法能够解析无scheam的文件。前提是在类方法中指定一个scheam进行解析。大致方法如下。 public static List
FileNotFoundException: File does not exist java linux mysql ubuntu
2021-02-14 17:26

回答 1 已采纳看看这个： https://blog.csdn.net/wangshuminjava/article/details/80179648
在go中使用Kafka Avro消息
2016-11-11 13:20

回答 2 已采纳 Just found out (by comparing binary avro messages) that I had to remove the first 5 elements of th
simplesparkavroapp:读取和写入 Avro 数据的简单 Spark 应用程序
2021-06-12 21:03

Spark 与 Avro 和 Parquet 随附一个简单的 Spark 应用程序，演示如何以 Parquet 和 Avro 格式读取和写入数据。 Avro 指的是二进制格式和内存中的 Java 对象表示。 Parquet 仅指一种二进制格式，它支持可插入的内存...
Flume接收来自AvroSource信息 flume 大数据
2023-03-24 23:50

回答 1 已采纳根据您提供的信息，我们可以初步分析出可能出现错误的步骤：1. AvroSource的配置是否正确，包括IP地址、端口号等信息是否正确设置；2. Flume的配置是否正确，包括source、channe
无法使golang和包bigquery正常工作以加载到大查询
2018-10-26 15:48

回答 1 已采纳 The panic is probably coming from a nil pointer reference to the job variable. I would suggest in
flume执行配置文件的时候显示权限不够 flume
2022-05-12 09:10

回答 1 已采纳进入目录bin/flume-ng赋权chmod +x flume-ng
读取parquet_Spark2.0入门：读写Parquet(DataFrame)
2021-01-12 02:00

游戏干线的博客 [返回Spark教程首页]Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC...
关于厦门大学林子雨的实验 sqoop导入到 mysql中发生的错误 hadoop mysql sqoop 有问必答
2021-12-01 16:09

回答 2 已采纳 File does not exist: hdfs://localhost:9000/usr/local/sqoop/lib/parquet-avro-1.4.1.jar 你最后一行不是有提示了么，文
[HDFS]hive表文件下的.metadata文件夹是什么？ hdfs hive java sqoop 大数据
2018-06-13 06:26

回答 1 已采纳 metadata就是元数据，用来存放表结构、字段信息之类的，用来描述数据的数据。另外eclipse也有自己的metadata，你要看看是哪个metadata缺失了。
eclipse如何配置schema
2016-10-17 02:31

回答 1 已采纳在eclipse中配置spring 自定义的schema文件　　问题：使用了spring自定义schema时，在xml文件中无法自动提示自定义的tag。　　解决：在eclipse中设置：
FlinkParquet:使用Parquet文件格式（使用Avro）通过Apache Flink处理数据
2021-05-15 17:25

使用Apache Flink处理Apache Parquet文件此仓库包含用于设置Flink数据流以处理Parquet文件的示例代码。 resources/下的CSV数据集是从下载的Restaurant Score数据集。有关更多信息，请参见。 ###生成Avro模型类如果...
定时任务执行一段时间JVM会自动退出问题，急求大神帮忙。
2014-05-12 09:38

回答 3 已采纳通过这段 [quote] Current thread (0x00007f4b4c070000): VMThread [stack: 0x00007f4b486f7000,0x00007f4b4
schemer：CSV，TSV，JSON，AVRO和Parquet架构的架构注册表。支持模式推断和GraphQL API
2021-02-03 21:07

schemer：CSV，TSV，JSON，AVRO和Parquet架构的架构注册表。支持模式推断和GraphQL API
parquet-avro-1.10.0-API文档-中文版.zip
2022-04-23 13:17

Maven坐标：org.apache.parquet:parquet-avro:1.10.0；标签：apache、parquet、avro、jar包、java、API文档、中文版；使用方法：解压翻译后的API文档，用浏览器打开“index.html”文件，即可纵览文档内容。人性化...
cloud-storage-extension:Exasol Cloud Storage Extension，用于访问公共云存储系统上的格式化数据Avro，Orc和Parquet
2021-03-26 20:55

支持以下数据导入格式：[Apache Avro] [avro]，和。允许从导入数据。支持将表以Apache Parquet格式导出到公共云存储系统。支持以下云存储系统：，，，和。允许配置并行的导入或导出过程。用户须知 ...
ABRiS:适用于Apache Spark结构化API的Avro SerDe
2021-05-14 19:46

ABRiS-适用于Spark的Avro Bridge 无痛Spark / Avro集成。... 在Spark 2.3.x上，您必须声明对org.apache.avro:avro:1.8.0或更高版本的依赖。（Spark 2.3.x使用Avro 1.7.x，因此您必须将其覆盖，因为ABRiS
隆隆声：:cloud_with_lightning_and_rain_selector:Rumble 1.10.0“ Buttonwood”:deciduous_tree:for Apache Spark | 对大型，凌乱的类似于JSON的数据（JSON，文本，CSV，Parquet，ROOT，AVRO，SVM等）运行查询| 无需安装（只需下载一个jar）| 声明式机器学习等
2021-01-28 10:54

入门：你会发现一个Jupyter笔记本电脑，介绍了轰隆隆的顶部JSONiq语言。您可以通过安装多合一数据科学平台来使用它，除非您更喜欢手动安装Python + Spark + PySpark + Jupyter（brew，apt ...）。该文档还包含...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

spark读取avro序列化的parquet时报错：Illegal Parquet type: FIXED_LEN_BYTE_ARRAY

1条回答 默认 最新

悬赏问题

1条回答默认最新