hive中如何提高group by的效率呢？

select q,count(*) pv from dso.`dict_server` where day between '2019-09-01' and '2019-09-30' and noecceresult='1' and q rlike '^[\u4E00-\u9FA5]+$' group by q order by pv desc limit 3000000

怎么才能提高上面的查询效率呢?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_40955428 2019-10-18 17:22
关注
开启Map端聚合参数设置
（1）是否在Map端进行聚合，默认为True
hive.map.aggr = true
（2）在Map端进行聚合操作的条目数目
hive.groupby.mapaggr.checkinterval = 100000
（3）有数据倾斜的时候进行负载均衡（默认是false）
hive.groupby.skewindata = true
当选项设定为 true，生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

SQL进阶技巧：如何处理Hive中的数据倾斜？
2024-10-28 22:04

莫叫石榴姐的博客【数据建模+业务建模，不一样的认知体系】（本文总结了Hive中数据倾斜的常见处理方法。如果只懂数据建模而不懂业务建模，数仓体系认知是不全面的。（4）数字化建设当中遇到难题解决思路及问题思考。（1）一次收费...
数据库领域Hive在人工智能数据支持中的作用
2025-04-16 21:03

数据架构师的AI之路的博客本文旨在全面解析Apache Hive在人工智能数据支持中的关键作用，包括其技术原理、应用场景和最佳实践。范围涵盖Hive的基本概念、架构设计、与AI工作流的集成方式，以及在实际AI项目中的应用案例。本文首先介绍Hive的...
高级SQL优化 | 告别 Hive 中 GROUP BY 的大 KEY 数据倾斜！PawSQL 自适应优化算法详解
2025-08-22 10:39

PawSQL，企业级SQL优化平台的博客摘要：PawSQL的GroupSkewedOptimization算法通过两阶段聚合解决Hive数据倾斜问题。该算法对热点数据先加盐分流（随机...适用于电商、金融等存在严重数据倾斜的分组统计场景，自动优化无需人工干预，显著提升查询效率。
如何在 Hive SQL 中处理复杂的数据类型？
2025-01-05 14:10

莫叫石榴姐的博客 | 员工座位安排问题数势科技智能分析AI Agent 何以在市场中脱颖而出？解锁SQL无限可能：如何利用HiveSQL实现0-1背包问题？数仓建模：一种动态字段表模型设计方法与应用 SQL进阶技巧：如何根据工业制程参数计算...
Hive Group By 实现
2018-09-11 20:57

wankunde的博客和reducer.endGroup();，这两个方法会递归调用到GroupByOperator中，用于设置firstRowInGroup = true和keysCurrentGroup.clear(); 进入processOp方法，首先判断如果hashAggr如果没有实现一半以...
Hive 到底有什么用？
2022-11-27 16:36

JavaEdge聊AI的博客开发无需经常编写MapReduce程序，因为网站最主要的大数据处理就是SQL分析，因此Hive很重要。随Hive普及，我们对在Hadoop执行SQL的需求越强，对大数据SQL的应用场景也多样化起来，于是又开发各种大数据SQL引擎。...
探索 Hive 在大数据机器学习中的应用
2026-02-22 00:12

AI Native APP 开发前沿的博客 Hive在大数据机器学习流程中的具体定位（不是替代机器学习框架，而是做“数据管家”）；如何用Hive解决机器学习中最耗时的“数据预处理”难题；Hive与Spark MLlib、Scikit-learn等主流框架的集成方法。覆盖Hive 3.x...
hive 中case when会减慢速度吗_数据仓库中的SQL性能优化
2020-12-04 00:58

富川福利的博客一个Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分)，针对MR全局的优化，和...
探索 Hive 在大数据可视化中的应用潜力
2026-01-04 00:30

AI大模型应用之禅的博客本文从概念基础理论框架架构设计实现机制到实际应用，系统分析Hive在大数据可视化中的应用潜力：通过Hive的数据建模（分区、分桶）、查询优化（CBO、执行引擎选择）与生态集成（Tableau、Power BI等），解决可视化中...
大数据开发之路：hive篇，你看了吗？
2019-05-13 17:02

金豆数据工程师的博客引语大数据开发之路漫漫其修远兮，吾将上下而求索。很多入门大数据的小伙伴，可能第一个接触到的，就是一只可爱的“小象”，也就是我们的大数据领域的数据仓库工具hive。...在大数据生态中，hive一般作...
没有解决我的问题, 去提问

hive中如何提高group by的效率呢？

1条回答 默认 最新

1条回答默认最新