一条Hive SQL作业执行慢，该怎么办？

入行大数据两年了，虽然在公司担任大数据开发，无奈公司规模小，没有接触过真正的“大”数据。
面试遇到过这么个问题：有一条Hive SQL，执行了一个半小时，太慢，不符合要求，你该怎么办？
我回答了一些hive 参数调优，包括小文件合并、数据倾斜等参数。我还没回答完，面试官就打断了我，问你如何定位到问题原因？我说可以在UI界面查看是否发生数据倾斜。面试官接着说，好，现在知道发生数据倾斜了，你如何定位到是哪个地方发生了数据倾斜？我......。面试官看我窘迫，接着说，假设不是数据倾斜，你接下来怎么办？我......
针对这个问题，有没有什么思考模式或者方法论？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
SoftwareTeacher 《编程之美》作者 2020-12-21 13:36
关注
请看看这个： https://www.csdn.net/tags/OtTacgysMjkzOC1ibG9n.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Hive SQL问题，如何汇总当前日期所在月已经完成的总量？ hive python sql 有问必答
2021-10-11 20:14

回答 1 已采纳可以通过开窗函数sum() over (partition by xxx order by xxx )来实现，具体使用方法可以网上查下，有很多资料
hive sql 行列转置问题 hive sql 数据仓库有问必答
2022-01-15 13:24

回答 2 已采纳右边的6个列每2个列一组，加一个静态的职位字段，一共三个列，用union all拼接起来，再用字符串聚合把职位拼起来。这个方法应该是可用的。至于用lateral view explode进行行列转换的
hive编写sql命令查询统计百分比 hive mysql sql
2022-05-03 00:42

回答 2 已采纳首先两张表关联起来，然后计算Lenovo订单数量，再除以总数量就可以了 select (select count(1) from orders o join items i on o.item_id
hive sql插入一行数据_hive分区表插入一条测试数据
2021-01-13 22:47

简 Ai的博客 1.show create table tb_cdr; +-------------------------------------------------------+--+ | createtab_stmt | +-------------------------------------------------------+--+ | CREATE TABLE `...向表中插入一...
新手入门，一个关于hive sql ,case 的提问 hive sql
2021-09-13 09:34

回答 1 已采纳第二种写法省略了=，但是里面必须是一个值，不能写表达式第一种写法相当于高级语言里的if,then,else第二种写法相当于switch,case你不能在case里面再写大于小于，只能写一些固定的值-=
Hive如何获取一周前分区的数据？ hive sql
2022-06-14 09:52

回答 1 已采纳 select date_sub('2022-06-02',7) select date_sub(concat_ws('-','2022','6','2'),7) select day(date_sub
关于#hive#的问题，如何解决？ hive sql 数据库
2022-08-26 18:24

回答 2 已采纳这2个题目都需要用到了hive的正则表达式和数组展开功能第一个sql 用split把字符串展开成数组用lateral view explode把数组展开成多行regexp_extract 从字符串中
hive sql 功力提升
2024-06-16 20:15

程序员面试笔记的博客核心思路：将能合并的数据分组，而分组的关键是找到分组的起点（在这里是起始时间），之后判断当前数据是否要和上一条数据合并。– 当前数据：判断是否为新的起点，如果时间上有断点，那就是新的起点，否则不需要。...
hive sql 填充数据的问题 hive sql 数据库
2022-01-15 15:13

回答 2 已采纳 hive有个函数Lag，取前n条，你可以指定取前一条，然后判断，如果本身是null或空，就取lag的前一条，否则就用本身。当然这个函数有个条件，是你得指定至少一个排序字段，否则无法判断哪个是上一条
hive的sql计算 hive sql 数据仓库
2022-04-06 17:10

回答 1 已采纳一天之内，同一个用户访问同一个绘本的同一页，是有可能出现多条记录的，而单行的退出时间减进入时间只表示单次的记录，考虑到你最终结果里存在"观看次数"这个字段，这个字段肯定是要count的，因此多行的观看
hive sql 查询问题 hive
2022-04-27 18:15

回答 3 已采纳 select t1.xno as 产品编码, t1.name as 项目名称, sum(Case when t2.plevel="A" then 1 else
Hive SQL迁移Spark SQL在网易传媒的实践
2021-10-25 08:00

小晨说数据的博客引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sp...
flink sql job 如何每天定时执行？ flink
2022-04-24 14:53

回答 2 已采纳这样好像不行，你可以换一种思路。写linux脚本，定时提交作业 Linux Crontab 定时任务麻烦采纳一下，你的采纳，是对我最好的鼓励，谢谢！
解决beeline -e 无法执行多条sql 问题
2022-07-22 20:53

holomain的博客 beeline -e 执行多行sql 语法
Hive SQL迁移 Spark SQL 在网易传媒的实践
2021-10-19 09:00

过往记忆的博客引言：把基于mapreduce的离线hiveSQL任务迁移到sparkSQL，不但能大幅缩短任务运行时间，还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sp...
没有解决我的问题, 去提问

悬赏问题

¥30 arduino vector defined in discarded section `.text' of wiring.c.o (symbol from plugin)
¥20 关于#c++#的问题：(2）运算二叉树·表达式一般由一个运算符和两个操作数组成：（相关搜索：二叉树遍历）
¥20 如何训练大模型在复杂因素组成的系统中求得最优解
¥15 关于#r语言#的问题：在进行倾向性评分匹配时，使用“match it"包提示”错误于eval(family$initialize): y值必需满足0 <= y <= 1“请问在进行PSM时
¥45 求17位带符号原码乘法器verilog代码
¥20 PySide6扩展QLable实现Word一样的图片裁剪框
¥15 matlab数据降噪处理，提高数据的可信度，确保峰值信号的不损失？
¥15 怎么看我在bios每次修改的日志
¥15 python+mysql图书管理系统
¥15 Questasim Error: (vcom-13)

一条Hive SQL作业执行慢，该怎么办？

1条回答 默认 最新

悬赏问题

1条回答默认最新