hive中如何提高group by的效率呢？

select q,count(*) pv from dso.`dict_server` where day between '2019-09-01' and '2019-09-30' and noecceresult='1' and q rlike '^[\u4E00-\u9FA5]+$' group by q order by pv desc limit 3000000

怎么才能提高上面的查询效率呢?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_40955428 2019-10-18 17:22
关注
开启Map端聚合参数设置
（1）是否在Map端进行聚合，默认为True
hive.map.aggr = true
（2）在Map端进行聚合操作的条目数目
hive.groupby.mapaggr.checkinterval = 100000
（3）有数据倾斜的时候进行负载均衡（默认是false）
hive.groupby.skewindata = true
当选项设定为 true，生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hive中group by条件加了一条导致count（*）变多，有什么办法吗？ hive mysql sql 有问必答
2021-08-31 12:03

回答 2 已采纳 select pt_d,prodname,count(*) as 会员数,sum(price)/count(1) as 价格 From X group by pt_d,prodname
关于#hive#的问题，如何解决？ hive sql 数据库
2022-08-26 18:24

回答 2 已采纳这2个题目都需要用到了hive的正则表达式和数组展开功能第一个sql 用split把字符串展开成数组用lateral view explode把数组展开成多行regexp_extract 从字符串中
hive中string类型和varchar类型哪个更好些？ hive 有问必答
2021-09-15 09:58

回答 1 已采纳从 version 0.12开始,Hive支持VARCHAR数据类型.在hive中默认情况下,String被映射到VARCHAR(32762),这意味着如果值超过32762,则该值将被截断如果数据不需
Hive Group By 实现
2018-09-11 20:57

wankunde的博客和reducer.endGroup();，这两个方法会递归调用到GroupByOperator中，用于设置firstRowInGroup = true和keysCurrentGroup.clear(); 进入processOp方法，首先判断如果hashAggr如果没有实现一半以...
如何优化hive动态分区写入速度？ hadoop hive 大数据
2022-05-21 17:53

回答 1 已采纳查询最后加上distribute by ORDERDATEsort by ORDERDATE distribute by按照指定的字段将数据划分到不同的输出reduce中，可以保证每个reduce处理
hive中order by 后不可以直接跟函数 hive
2022-04-15 17:10

回答 3 已采纳 order by是把结果集进行排序，就是select 里面的内容。
Hbase 和 hive 有什么区别？hive 与 hbase 的底层存储是什么？hive 是产生的原因是什么？habase 是为了弥补 hadoop 的什么缺陷? hadoop hbase hive 有问必答
2021-11-06 11:30

回答 1 已采纳大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？_RunFromHere的博客-CSDN博客文章目录1
hive partition order by 和 group by 的区别
2019-09-27 20:59

ai53522的博客今天学到一个新技巧，求累加和：sum ...partition by 不改变数据行数，原来多少行还是多少行，group by 改变行数，只保留了group by 之后的结果。下面这个例子还不错，供参考： https://www.cnblogs.com/lcngu/p/...
MySQL在hive使用的过程中的作用是什么？ mysql
2019-03-07 10:29

回答 3 已采纳资源库的角色。hive不也是属于数据仓库嘛，他的数据文件是放在HDFS上，但是他的配置信息是放在资源库上，也就是mysql。比如说表结构等等。相当于'后宫'，我是这么理解的。
hive自定义函数的调用效率 hadoop hive
2021-09-21 09:38

回答 1 已采纳可以换一个思路，通过case when col = '' or col is null then '缺省值' else col end 进行数据的处理，效率应该是有保证的。
获取groupBy中的最后一项 laravel mysql php sql
2018-05-17 15:20

回答 1 已采纳 You can try to run the following: SELECT first_name, last_name, email, car_reg,
大数据开发之路：hive篇，你看了吗？
2019-05-13 17:02

金豆数据工程师的博客引语大数据开发之路漫漫其修远兮，吾将上下而求索。很多入门大数据的小伙伴，可能第一个接触到的，就是一只可爱的“小象”，也就是我们的大数据领域的数据仓库工具hive。...在大数据生态中，hive一般作...
group by 为什么 distinct 效率高
2018-10-26 15:55

阳光小禹的博客 group by 为什么 distinct 效率高在数据库操作中，我们常常遇到需要将数据去重计数的工作。例如：表A，列col A C A B C D A B 结果就是一共出现4个不同的字母A、B、C、D 即结果为4 大体上我们...
Hive在阿里巴巴数据仓库中的实践与应用
2023-07-29 02:10

禅与计算机程序设计艺术的博客 Apache Hive 是 Hadoop 的一个子项目，它是一个基于 HQL（Hadoop Query Language）语言的查询引擎，可以将结构化的数据文件存储在HDFS上并提供分布式计算功能。Hive 有着良好的扩展性、稳定性、高效执行速度、完备的...
hive的分组和组内排序
2022-08-24 18:06

猥琐的刚的博客 hive的分组和组内排序—语法语法： row_number() over (partition by 字段a order by 计算项b desc ) rank rank是排序的别名 partition by：用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，它和...
没有解决我的问题, 去提问

悬赏问题

¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作

hive中如何提高group by的效率呢？

1条回答 默认 最新

悬赏问题

1条回答默认最新