hive on sparksql 任务卡死

执行hiveonspark的sql之后，数据成功插入进去了，但是yarn中的任务一直running状态，executors中有一个task一直卡死，求解答

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-18 10:43
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【您想要解决的问题】：您提问的目的是解决在使用Hive on Spark执行SQL任务后，虽然数据已成功写入，但在YARN中的任务持续处于运行状态，且有一个Executor中的Task一直卡住不前进的问题。

【图片内容】：

第一张图片显示了一个SQL查询语句，该语句用于向dim_user_zip表中插入数据，并指定了分区为'9999-12-31'。SQL中包含了对数据进行MD5加密和正则表达式匹配的操作。
第二张图片展示了一个Spark作业的执行情况，包括Executors的状态、任务的完成情况、存储使用情况等。从图中可以看出，有一个Executor的状态为Active，且存在卡住的任务。
第三张图片提供了YARN集群的一些信息，包括应用程序的状态、队列、资源使用情况等。可以看到有一个名为application_1715998058621_0001的Hive on Spark应用程序正在运行。

【问题出现原因】：问题可能出现的原因有多种，以下是一些可能的原因：

数据处理逻辑中可能存在性能瓶颈，例如复杂的正则表达式匹配或MD5加密操作。
Executor资源不足，无法高效处理分配给它的任务。
输入数据可能存在问题，如格式错误或数据量过大，导致某个Task处理时间异常。
Spark作业配置不当，如内存分配不足或并行度设置不合理。

【问题解决方案】：

优化SQL查询：检查SQL查询中的正则表达式和MD5函数是否可以优化，减少计算量。
调整资源分配：确保Executor有足够的资源来处理分配给它的任务。可以通过调整Spark作业的配置参数来实现。
检查数据：确认输入数据的质量和格式是否符合预期，避免因数据问题导致的处理延迟。
调整并行度：根据数据量和集群资源情况，合理设置作业的并行度。
监控和调试：使用Spark的监控工具来观察作业的执行情况，找出瓶颈所在。

【提供代码】：由于问题可能与具体的SQL查询或数据有关，这里不提供具体的代码，而是建议对SQL查询进行优化，例如：

简化或移除不必要的正则表达式匹配。
使用更高效的数据加密方法替代MD5。

【代码运行方式】：优化后的SQL查询可以在Spark SQL或Hive环境中执行。确保你的Spark集群有足够的资源，并且已经根据需要调整了作业的配置参数。

【代码预期运行结果】：优化后的代码应该能够提高作业的处理速度，减少Executor的卡顿现象。

【推荐相关链接】：

Apache Spark 官方文档
Hive on Spark 官方文档
YARN ResourceManager 使用指南
Spark 性能调优指南
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
2021-12-30 23:40

大数据老司机的博客文章目录一、Spark on Hive 和 Hive on Spark的区别1）Spark on Hive2）Hive on Spark（本章实现）二、Hive on Spark实现1）编译hive1、下载hive2、编译hive3、解压hive4、下载spark5、打包spark jar包并上传到HDFS6...
hive on spark 之通过spark web ui详解数据倾斜及思路历程
2022-10-20 11:32

cclovezbf的博客 1 机缘巧合之下发现表的数据倾斜 select count(1) from ODSERPDATA.FA_ASSET_HISTORY --11585417 --注意这个然后我看spark web ui 的时候，这里任务已经开始卡住了点进这个stage细看咦这里怎么刚好有个 shuffle...
大数据岗位校招Hive面试总结
2020-10-30 21:26

vegetable chicken01的博客秋招结束，拿到了比较满意的大厂offer，在这里把复习时刷过的面经以及面试时遇到的问题总结一下~1、Hive的SQL语句如何转换为MR任务？2、Hive中有哪些文件类型3、几种join的区别4、order by和sort by的区别5、drop ...
大数据开发笔记（四）：Hive数据仓库
2021-01-20 12:22

GoAI的博客 Hive数据是存储在HDFS，本质上是转换成mr程序执行，因此查询效率比较慢，涉及mr程序的资源调度和任务计算； HDFS的数据操作是支持覆盖追加，它不支持update和事务；扩展性好，可以在多个集群上做应用开发； Hive...
Spark动态分区写入数据卡死metastore源码分析
2025-02-12 18:45

辛友的博客在一个周五的18点10分，突然收到大量任务告警信息，离线平台的所有Spark任务都无法执行，报错信息显示无法连接Hive MetaStore，登陆Hive MetaStore机器查看日志，大量的get_table和get_partition报错信息，查看...
hive执行sql时死机
2019-04-29 09:18

hello_zzw的博客在执行MR时，一直暂停，无法执行，如下： hive>...WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engin...
spark、hive-数据倾斜
2022-04-21 15:35

zdkdchao的博客有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能二、数据倾斜...
SQL过于复杂，嵌套过多，导致HiveSQL编译时间过长
2025-01-31 15:10

500佰的博客 SQL过于复杂，嵌套过多，导致HiveSQL编译时间过长
Hive alter table drop partition删除大量分区慢、报错
2025-01-31 15:27

500佰的博客 Hive alter table drop partition删除大量分区慢、报错
大数据开发环境搭建系列五：MySQL、Hive和Sqoop的安装和环境搭建
2021-01-08 08:46

翻滚的小@强的博客所以这里的这个系列是记录自己搭建大数据开发环境的整个过程，这里面会涉及到Hadoop集群，Spark， zookeeper, HBase, Hive, Kafka等的相关安装和配置，当然后面也会整理目前学习到的关于前面这些东西的相关理论...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月18日

hive on sparksql 任务卡死

3条回答 默认 最新

问题事件

3条回答默认最新