hive 大表小表顺序

问题遇到的现象和发生背景

小表关联大表的性能问题，目前我一张大表，10亿左右，用日期分区，每个分区大概是5000W。有张很小的表，表数据是变动的。大概只有几条。

问题相关代码，请勿粘贴截图

select dt,count(1)
from 大表 t
join 小表 t1
on t.dt=t1.dt
group by dt

使用上面的方式查询非常的慢，我也改使用left semi join和mapjon、in、exists性能都很差。
如果改成

select dt,count(1)
from 大表 t
where t.dt in(日期1，日期2)
group by dt
这种方式很快。
请问有什么好的办法提升性能。因为日期参数不是固定的，只能从小表里面取

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
笑看风云路领域专家: 大数据技术领域 2022-06-02 15:16
关注
上面的方式走的是全表扫描
下面的添加了where子句，走的是分区查询
解决办法：
select dt,count(1)
from 大表 t
where t.dt in (select dt from 小表)
group by dt

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据面试 Hive 八股文
2023-02-20 10:57

Hive是大数据领域中一个重要的数据仓库工具，它设计的目标是为大规模数据集提供数据查询和分析能力。由于Hive提供了类似SQL的查询语言（HQL），使得非Java背景的分析师也能轻松进行大数据处理。下面我们将深入探讨...
大数据之Hive基础
2024-11-20 11:50

羊咩咩爱学习的博客 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是将HQL转化为MapReduce分类：1）UDF 一进一出2）UDAF 聚集函数，多进一出（类似于count，max）3）UDTF ...
大数据技术之Hive
2024-10-27 23:06

让头发掉下来的博客第1章 Hive入门 1.1 什么是Hive 1）Hive简介 Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的...
大数据面试题整理——Hive
2024-10-28 18:45

自节码的博客 Hive是一个构建在Hadoop上的数据仓库软件，它提供了类似SQL的查询语言，使得用户可以用SQL来查询存放在Hadoop上的数据。Hive是一种结构化数据的存储和查询机制，它可以将SQL语句转换为MapReduce任务在Hadoop上执行。...
大数据之hive：hive分区表
2021-08-27 23:46

浊酒南街的博客目录一、分区表以及作用二、静态分区1、创建静态分区:2、加载数据3、查看数据及分区4、增加分区5、查询某一分区的数据三、动态分区1、创建一个普通动态分区表一:2、创建一个普通动态分区表二:3、加载数据： ...
【大数据】一篇认识Hive
2024-10-09 19:24

编码人生_的博客文章目录一、数据仓库1.1、数据仓库概念1.2、数据仓库核心特征1.3、数据库和数据仓库的区别1.4、数据仓库分层架构[**重要**]1.5、ETL和ELT二、Apache Hive2.1、Hive的概念2.2、Hive的架构组件(非常重要)2.3、Hive和...
利用大数据领域 Hive 进行实时数据监控
2025-05-03 10:29

光子AI的博客传统实时监控多依赖Kafka+Flink等流处理框架，但Hive作为大数据领域的经典数据仓库工具，通过优化（如LLAP、小文件治理）可实现分钟级准实时监控，弥补批处理与流处理间的能力 gap。本文聚焦Hive在分钟级准实时监控...
HIVE 大数据学习
2024-03-09 08:50

OutRoading的博客 Apache Hive是一款建立在Hadoop之上的开源系统，可以将存储在Hadoop文件中的，基于表提供了一种类似SQL的查询模式，称为，用于访问和分析存储在Hadoop文件中的大型数据集Hive核心是将 HQL转换成MapReduce程序，然后...
大数据hive之表连接
2021-08-13 12:17

Kan先生的博客 – 注意在无论进行何种表链接时,一定要将各种表进行重命名,防止错误发生一内连接 join 和inner join 是相同的 1.找出既在user_list_1也在user_list_2的用户：方法一: select * from user_list
大数据Hive常用函数大全
2024-05-05 00:45

阿诺漫漫跑的博客 大数据 hive 常用函数大全，持续更新中......
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月2日

hive 大表 小表 顺序