Hive on Spark下无法处理Parquet表

我在使用Hive on Spark时,在搭建过程中不段踩坑,网上资料也有,但都是千篇一律,点到为止,欲言又止,明明在说却又故意不说清楚的那种,看着让人很蛋疼.
过程是这样的,我在Spark的官网查到,要使用Hive on Spark必须有一个不包含一个Hive的Spark部署包,而官网上的都是带Hive的,那么就只剩一个办法了,自己编译
编译的方法有很多种,官方只要介绍有三种,一种是Spark自带的make-distribution.sh编译工具,第二种是使用Maven编译,第三那种是使用SBT去编译,我一开始选择了Spark自带的make-distribution.sh编译工具,编译过程是令人发疯的,不断报错,不断报错,最后还是让我编译成功了,我的方法是,报错了,重新指令指令编译,不断重复次步骤.
我在用make-distribution.sh编译工具时的指令如下:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided"
但是编译出来的spark-assembly-*.jar 包只有106M,然后安装部署spark后,却连启动都报错,我就去上网找资料,但是在网上找的资料是,有人通过make-distribution.sh编译工具编译,但是他竟然成功了,完全没报错?????有人也是通过make-distribution.sh编译工具编译的,结果跟我一样,也是报错,他后来才用Maven编译,成功了,没办法,我通过make-distribution.sh编译不成功只能也用Maven编译,后来确实也编译成功了,安装,运行一点问题都没有,我用Maven编译的指令如下:

mvn -Phadoop-2.6 -Pyarn -Dhadoop.version=2.6.5 -Dyarn.version=2.6.5 -Dscala-2.10 -DskipTests clean package
当我以为一切都搞定了的时候,问题又来了,因为我需要用到将Hive中的数据以parquet格式进行存储,到了这时它又报错了,报错信息如下:

Caused by: java.io.IOException: java.lang.reflect.InvocationTargetException
Caused by: java.lang.reflect.InvocationTargetException
Caused by: java.lang.NoSuchMethodError:org.apache.parquet.schema.Types$MessageTypeBuilder.addFields([Lorg/apache/parquet/schema/Type;)Lorg/apache/parquet/schema/Types$BaseGroupBuilder;
然后我就去找资料,百度,Google,Bing都找过了,愣是没找到问题在哪里,我就懵逼了,到底这个问题怎么解决啊?
求前辈赐教

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

大数据领域 Hive 与 Spark 的集成应用
2025-05-10 17:12

光子AI的博客 Hive 作为基于 Hadoop 的分布式数据仓库，擅长离线批量数据处理和 SQL 语义支持；Spark 则以内存计算为核心，提供批处理、流处理、机器学习等统一计算框架。本文旨在解析两者集成的技术原理、实施路径及应用价值，...
Hive on Spark 离线数仓生成的原始数据
2024-02-12 22:27

在大数据处理领域，Hive on Spark 是一种将 Apache Hive 的执行引擎替换为 Apache Spark 的解决方案，从而提升数据处理性能和效率。Hive 提供了一种SQL-like 的查询语言（HQL）来操作大规模数据，而Spark则是一个...
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
2021-12-30 23:40

大数据老司机的博客文章目录一、Spark on Hive 和 Hive on Spark的区别1）Spark on Hive2）Hive on Spark（本章实现）二、Hive on Spark实现1）编译hive1、下载hive2、编译hive3、解压hive4、下载spark5、打包spark jar包并上传到HDFS6...
Spark on Hive
2025-10-14 19:20

DolphinV2的博客 Spark 作为主导框架，通过 Spark SQL 读取 Hive 的元数据（Metastore），直接操作 Hive 中的数据，即用 Spark SQL 处理 Hive 表数据，此时 Hive 仅作为 “元数据管理器” 和 “数据存储层”。维度主导框架Hive（HQL ...
Hive on Spark：加速大数据分析的新引擎
2025-12-08 19:46

写代码的【黑咖啡】的博客是指将 Apache Spark 作为 Hive 的执行引擎来运行 HiveQL 查询的一种模式。换句话说，用户仍然使用熟悉的 Hive 接口（如 Hive CLI、Beeline 或 HiveServer2）编写 SQL 查询，但这些查询不再由 MapReduce 执行，而是...
Hive与Spark的完美融合：深入解析Hive on Spark配置与优化指南
2025-10-08 20:45

码字的字节的博客 Hive on Spark的本质是将Hive的查询处理能力与Spark的执行引擎相结合，使得用户能够继续使用熟悉的HiveQL进行数据操作，同时享受Spark带来的性能提升。未来，随着5G和边缘计算的发展，Hive on Spark可能会进一步与...
Hive性能提升秘籍：从Hive on MR到Hive on Spark的深度实践
2024-11-13 08:30

加菲盐008的博客主要记录如何安装配置Hive on Spark，在执行以下步骤之前，请先确保已经安装Hadoop集群，Hive，MySQL，JDK，Scala，具体安装步骤可参阅之前内容。
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
2023-03-13 11:46

oo寻梦in记的博客 Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 ...Spark SQL主要用于结构型数据处理，它的前身为Shark，在Spark 1.3.0版本后才成长为正式版，可以彻底摆脱之前Shark必须依赖HIVE的局面。
spark或mr引擎插入的数据，hive表查询数据为0
2024-02-28 15:20

通过上述分析可以看出，对于“Spark或MR引擎插入的数据，Hive表查询数据为0”的问题，主要是因为Tez引擎在执行`UNION ALL`操作时生成了额外的子目录，而查询引擎未能正确处理这些子目录。通过改变数据写入方式或是...
Hive on Spark生产调优之Job和Join优化
2023-03-23 14:37

数据与算法架构提升之路的博客在这种情况下，很有可能是Executor的BlockManager在拉取数据的时候，无法建立连接，然后超过默认的连接等待时长120s后，宣告数据拉取失败，如果反复尝试都拉取不到数据，可能会导致Spark作业的崩溃。这种情况也可能...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

Hive on Spark下无法处理Parquet表

0条回答默认最新

Hive on Spark下无法处理Parquet表

0条回答 默认 最新

0条回答默认最新