使用spark2.1进行mysql2hive数据同步job会卡在最后一个task上并不断GC

备注：

job 0 ：从Mysql中拖数据在hdfs中建立临时表（parquet文件）
job 1 : 将临时表中的数据写入Hive中。
spark 1.6的parquet压缩格式默认为gzip。
spark 2.1的parquet压缩格式默认为snappy。

问题描述：

Mario依赖spark 1.6时，如表A(约3GB)运行流畅，执行时间 < 15Min.
Mario依赖spark 2.1时，如表A(约3GB)运行卡顿，执行时间>30 Min。原因是job 1会卡在最后一个task上并不断进行GC。

解决方案：

将spark 2.1中parquet的压缩格式由snappy改为gzip后，问题解决。
将spark1.6中parquet的压缩格式改为snappy,顺利执行，并未卡顿。

有待研究

压缩格式产生如此影响的内在机制是什么？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-07-25 13:38
关注
http://www.92to.com/bangong/2017/02-06/16962095.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
配置hive on spark测试，创建表，insert测试效果报错，如何解决？ hadoop hive spark 有问必答
2022-04-21 01:37

回答 2 已采纳你在b站视频下面看看评论区，评论区下面的前几个有大佬提供了解决思路。我当时这里报错了，我用了评论区给的方法成功了。如果评论区的方法没有解决，说一个最不好听的方法，你把hive和spark重新装一遍。我
Windows PC上创建大数据职业技能竞赛实验环境之五--hadoop、hive和spark编程
2022-04-14 22:23

liu9ang的博客前述，我们在Windows WSL上，通过Docker容器技术实现了Hadoop集群环境，现在看看利用现有集群环境进行编程开发。 1 设置容器开启时自运行SSH服务参照docker中安装Ubuntu无法在启动时运行ssh服务的解决方案 - ...
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
sqoop将windows的MySQL数据导入到Linux的hive报错 hive mysql sqoop
2023-02-23 01:04

回答 2 已采纳问题已解决，是因为我的MySQL没法在Linux远程连接，在Windows的MySQL里授权允许远程登录就好了
数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
hive on spark hql 插入数据报错 Failed to create Spark client for Spark session Error code 30041
2022-07-29 11:19

闭关苦炼内功的博客 Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 50cec71c-2636-4d99-8de2-a580ae3f1c58)' FAILED: Execution ...
MySQL在hive使用的过程中的作用是什么？ mysql
2019-03-07 10:29

回答 3 已采纳资源库的角色。hive不也是属于数据仓库嘛，他的数据文件是放在HDFS上，但是他的配置信息是放在资源库上，也就是mysql。比如说表结构等等。相当于'后宫'，我是这么理解的。
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
spark与hive版本问题? 本机正常运行,服务器上报错. hive java spark
2021-07-30 17:14

回答 1 已采纳可参考：https://blog.csdn.net/zt15732625878/article/details/85245731看客户端的 hive-jdbc的version 和hive Server
《大数据面试题》面试大数据这一篇就够了
2020-05-05 09:23

abluer~的博客《大数据面试题》面试大数据这一篇就够了 Hadoop 常见面试题 Hive 常见面试题 Spark 常见面试题 Flume 常见面试题 Kafka 常见面试题 Hbase 常见面试题 Redis 20 问
在window下初始化hive报错：hive --service schematool -dbType mysql -initSchema hadoop hive
2022-04-10 23:23

回答 1 已采纳解决办法：mysql的hive已经初始化了，删除表，重新初始化
Hadoop+Hive大数据学习笔记
2023-01-06 14:45

Int mian[]的博客 Hadoop和Hive，HQL学习笔记
大数据开发面试知识点总结
2021-02-09 11:22

GoAI的博客本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。
没有解决我的问题, 去提问

悬赏问题

¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题
¥15 Python时间序列如何拟合疏系数模型
¥15 求学软件的前人们指明方向🥺
¥50 如何增强飞上天的树莓派的热点信号强度，以使得笔记本可以在地面实现远程桌面连接
¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn
¥20 idea运行测试代码报错问题

使用spark2.1进行mysql2hive数据同步job会卡在最后一个task上并不断GC

备注：

问题描述：

解决方案：

有待研究

2条回答 默认 最新

悬赏问题

2条回答默认最新