Hive on Spark下无法处理Parquet表

我在使用Hive on Spark时,在搭建过程中不段踩坑,网上资料也有,但都是千篇一律,点到为止,欲言又止,明明在说却又故意不说清楚的那种,看着让人很蛋疼.
过程是这样的,我在Spark的官网查到,要使用Hive on Spark必须有一个不包含一个Hive的Spark部署包,而官网上的都是带Hive的,那么就只剩一个办法了,自己编译
编译的方法有很多种,官方只要介绍有三种,一种是Spark自带的make-distribution.sh编译工具,第二种是使用Maven编译,第三那种是使用SBT去编译,我一开始选择了Spark自带的make-distribution.sh编译工具,编译过程是令人发疯的,不断报错,不断报错,最后还是让我编译成功了,我的方法是,报错了,重新指令指令编译,不断重复次步骤.
我在用make-distribution.sh编译工具时的指令如下:

./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided"
但是编译出来的spark-assembly-*.jar 包只有106M,然后安装部署spark后,却连启动都报错,我就去上网找资料,但是在网上找的资料是,有人通过make-distribution.sh编译工具编译,但是他竟然成功了,完全没报错?????有人也是通过make-distribution.sh编译工具编译的,结果跟我一样,也是报错,他后来才用Maven编译,成功了,没办法,我通过make-distribution.sh编译不成功只能也用Maven编译,后来确实也编译成功了,安装,运行一点问题都没有,我用Maven编译的指令如下:

mvn -Phadoop-2.6 -Pyarn -Dhadoop.version=2.6.5 -Dyarn.version=2.6.5 -Dscala-2.10 -DskipTests clean package
当我以为一切都搞定了的时候,问题又来了,因为我需要用到将Hive中的数据以parquet格式进行存储,到了这时它又报错了,报错信息如下:

Caused by: java.io.IOException: java.lang.reflect.InvocationTargetException
Caused by: java.lang.reflect.InvocationTargetException
Caused by: java.lang.NoSuchMethodError:org.apache.parquet.schema.Types$MessageTypeBuilder.addFields([Lorg/apache/parquet/schema/Type;)Lorg/apache/parquet/schema/Types$BaseGroupBuilder;
然后我就去找资料,百度,Google,Bing都找过了,愣是没找到问题在哪里,我就懵逼了,到底这个问题怎么解决啊?
求前辈赐教

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

报告相同问题？

关注问题

配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
hive on spark运行sql报错 hive spark 有问必答
2021-09-28 16:58

回答 2 已采纳该问题由hive与spark两者版本不兼容导致的，具体的解释，在官网是有说明的：Hive on Spark is only tested with a specific version of Spar
hive中无法查看spark创建的表 hadoop hive spark 有问必答
2021-06-25 12:55

回答 1 已采纳你切到对应的数据库吗，xshell只是远程工具。
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
2021-12-30 23:40

大数据老司机的博客文章目录一、Spark on Hive 和 Hive on Spark的区别1）Spark on Hive2）Hive on Spark（本章实现）二、Hive on Spark实现1）编译hive1、下载hive2、编译hive3、解压hive4、下载spark5、打包spark jar包并上传到HDFS6...
Hive on Spark配置问题 hive spark
2022-12-08 11:36

回答 3 已采纳 hive-seit.xml文件里面必须要添加设置执行引擎为spark
hive on spark 打开文件过多错误 hadoop hive spark
2022-05-19 19:51

回答 3 已采纳你用的beeline方式连接的吧 beeline连接是有限的当连接超出的时候就会出问题你尝试一下直接连接hivecli 应该会好一点
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
2023-03-13 11:46

往事随风ing的博客 Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给 ...Spark SQL主要用于结构型数据处理，它的前身为Shark，在Spark 1.3.0版本后才成长为正式版，可以彻底摆脱之前Shark必须依赖HIVE的局面。
急】hive，insert从parquet表插入到textfile(cvs)表时，字段内容为NULL hadoop hive java
2018-05-31 01:35

回答 2 已采纳先确认下 A表和B表的定义。 show create table A; show create table B; 看下两个表的定义是否完全一致，另外看下 insert 语句是否按照表的各个字段
大数据hive分区表导入数据的问题 hive 大数据
2018-01-07 12:34

回答 5 已采纳 http://blog.csdn.net/fjssharpsword/article/details/64919412
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
Hive on Spark生产调优之Job和Join优化
2023-03-23 14:37

数据与后端架构提升之路的博客在这种情况下，很有可能是Executor的BlockManager在拉取数据的时候，无法建立连接，然后超过默认的连接等待时长120s后，宣告数据拉取失败，如果反复尝试都拉取不到数据，可能会导致Spark作业的崩溃。这种情况也可能...
hive创建外部表导入csv数据格式出错 hadoop hive 大数据
2022-06-06 17:18

回答 2 已采纳在window用excel把csv改成\t 分割,建表分割符改成\t
Hive on Spark下row_number()问题排查
2022-09-14 14:22

数据与后端架构提升之路的博客涉及hive3.1.2原生的bug，在做row_number(partition by 字段A)排序之前，如发生cast( 字段A as 类型B) as 字段A情况，那分区排序结果是有问题的
spark从入门到放弃四十:hive on spark
2018-04-22 17:11

WQ同学的博客知识背景（1） hive 是目前大数据领域，事实上的sql 标准。其底层默认是基于MapReduce实现的，但是...包括Spark Sql ，hive on tez ,hive on spark. Spark Sql 和hive on spark 是不一样的。spark sql 是Spark 自...
没有解决我的问题, 去提问

悬赏问题

¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊

码龄粉丝数原力等级 --

Hive on Spark下无法处理Parquet表

0条回答

悬赏问题