有没有检查hive sql的代码检查工具

有没有工具，可以批量的检查hive sql代码的执行效率，并提供出建议。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_22079645 2015-05-20 10:45
关注
长远设想，把如下的优化方案做成通用的hive优化方法

采样log表，哪些memberid比较倾斜，得到一个结果表tmp1。由于对计算框架来说，所有的数据过来，他都是不知道数据分布情况的，所以采样是并不可少的。Stage1

数据的分布符合社会学统计规则，贫富不均。倾斜的key不会太多，就像一个社会的富人不多，奇特的人不多一样。所以tmp1记录数会很少。把tmp1和members做map join生成tmp2,把tmp2读到distribute file cache。这是一个map过程。Stage2

map读入members和log，假如记录来自log,则检查memberid是否在tmp2里，如果是，输出到本地文件a,否则生成的key,value对，假如记录来自member,生成的key,value对，进入reduce阶段。Stage3.

最终把a文件，把Stage3 reduce阶段输出的文件合并起写到hdfs。

这个方法在hadoop里应该是能实现的。Stage2是一个map过程，可以和stage3的map过程可以合并成一个map过程。

这个方案目标就是：倾斜的数据用mapjoin,不倾斜的数据用普通的join，最终合并得到完整的结果。用hive sql写的话，sql会变得很多段，而且log表会有多次读。倾斜的key始终是很少的，这个在绝大部分的业务背景下适用。那是否可以作为hive针对数据倾斜join时候的通用算法呢？
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hive sql 行列转置问题 hive sql 数据仓库有问必答
2022-01-15 13:24

回答 2 已采纳右边的6个列每2个列一组，加一个静态的职位字段，一共三个列，用union all拼接起来，再用字符串聚合把职位拼起来。这个方法应该是可用的。至于用lateral view explode进行行列转换的
hive编写sql命令查询统计百分比 hive mysql sql
2022-05-03 00:42

回答 2 已采纳首先两张表关联起来，然后计算Lenovo订单数量，再除以总数量就可以了 select (select count(1) from orders o join items i on o.item_id
Hive SQL问题，如何汇总当前日期所在月已经完成的总量？ hive python sql 有问必答
2021-10-11 20:14

回答 1 已采纳可以通过开窗函数sum() over (partition by xxx order by xxx )来实现，具体使用方法可以网上查下，有很多资料
大数据学习之HiveSQL
2023-03-08 20:30

煜筱子的博客 HiveSQL
hive的sql计算 hive sql 数据仓库
2022-04-06 17:10

回答 1 已采纳一天之内，同一个用户访问同一个绘本的同一页，是有可能出现多条记录的，而单行的退出时间减进入时间只表示单次的记录，考虑到你最终结果里存在"观看次数"这个字段，这个字段肯定是要count的，因此多行的观看
hive sql 正则提取问题 hive python sql
2022-05-04 15:30

回答 5 已采纳试下这个 import re texts = [ "A037.08.151.1.12", "G037.08.157", "Z03.08.152.1", "Q1037.
新手入门，一个关于hive sql ,case 的提问 hive sql
2021-09-13 09:34

回答 1 已采纳第二种写法省略了=，但是里面必须是一个值，不能写表达式第一种写法相当于高级语言里的if,then,else第二种写法相当于switch,case你不能在case里面再写大于小于，只能写一些固定的值-=
大数据之Hive（八）：Hive SQL底层执行原理
2021-08-17 20:15

Oak-Komorebi的博客本节结构采用宏观着眼，微观入手，从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程，然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程，第三节剖析 SQL 编译成 MapReduce ...
hive sql连接问题 hive mysql sql
2022-05-10 22:14

回答 3 已采纳 SELECT count(DISTINCT CASE WHEN p.user_id IS NOT NULL and p.add_date >=t.add_date THEN p.user_id
hive-SQL窜行问题有什么好方法 etl工程师 sql 数据库
2022-05-07 09:07

回答 1 已采纳 select 项目编号 ,项目名称 ,max(长期投资) 长期投资 ,max(短期投资) 短期投资 ,max(累计投资) 累计投资 ,时间 from tablename group b
hive sql 查询问题 hive
2022-04-27 18:15

回答 3 已采纳 select t1.xno as 产品编码, t1.name as 项目名称, sum(Case when t2.plevel="A" then 1 else
HIVE SQL 优化
2023-10-16 18:02

纠结安然猿的博客因为count distinct操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般count distinct使用先group by再count的...其中在开发过程中主要涉及到的可能是SQL优化这块。
HiveSQL行列转换题 hive mysql sql 有问必答
2022-02-20 15:41

回答 2 已采纳 --测试数据 create table test_20220220(id int,col string); insert into test_20220220 values (1,'a,b,c');
数仓工具—Hive源码之SQL解析Antlr进阶(8)
2022-08-30 11:38

不二人生的博客使用ANTLR4工具处理g4文件，生成词法分析器、句法分析器代码、词典文件。编写代码继承Visitor类或实现Listener接口，开发自己的业务逻辑代码。其实我们看到最重要的就是实现Visitor接口，因为我们的逻辑在里面...
【大数据】Hive入门➕安装（尚硅谷大数据Hive 3.1.3教程）
2023-08-27 23:26

欧叶冲冲冲的博客 hive尚硅谷面试刷题网站✍命令行客户端beeline是Apache Hive提供的一个交互式工具，用于与Hive进行交互式的数据库操作和查询。具体来说，beeline允许用户通过命令行界面连接到Hive服务器，并在该界面下执行Hive SQL...
没有解决我的问题, 去提问

悬赏问题

¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

有没有检查hive sql的代码检查工具

1条回答 默认 最新

悬赏问题

1条回答默认最新