编程大法好 2022-09-29 14:43 采纳率: 0%
浏览 36

hive sql 数据关联问题

背景:

a表有三个字段,用户user_id ,出发日期stat_date,归来日期 back_data
b表是假期表(只存所有法定节假日信息)有两个字段,日期 day,假期类型type

需求:

获取用户在出发与归来日期之间是否是假期,并获取假期类型。

想法与代码:a,b两表关联,直接笛卡尔积,不设关联条件,然后去重
set hive.mapred.mode=nonstrict;

select
user_id
,start_date
,back_date
,festival
from
(
SELECT
user_id
,start_date
,back_date
,IF(b.day>=start_date and b.day<=back_date,type,null) as festival
FROM a,b
) t
group by 
user_id
,start_date
,back_date
,festival
运行结果及报错内容

这样产生笛卡尔积,数据量增加很多倍,而且很浪费资源,请教各位老哥,有没有更有效的方式?先行谢过!
(想着用left join 但是因为a表的日期是区间,没法关联,就放弃了。)

  • 写回答

1条回答 默认 最新

  • 孟意昶 2022-09-30 16:09
    关注

    用exists去找出发日期和归来日期中间有假期的就行,select * from a where exists (select 1 from b where b.day between a.start_date and a.back_date)

    评论

报告相同问题?

问题事件

  • 创建了问题 9月29日

悬赏问题

  • ¥15 java 的protected权限 ,问题在注释里
  • ¥15 这个是哪里有问题啊?
  • ¥15 关于#vue.js#的问题:修改用户信息功能图片无法回显,数据库中只存了一张图片(相关搜索:字符串)
  • ¥15 texstudio的问题,
  • ¥15 spaceclaim模型变灰色
  • ¥15 求一份华为esight平台V300R009C00SPC200这个型号的api接口文档
  • ¥15 就很莫名其妙,本来正常的Excel,突然变成了这种一格一页
  • ¥15 字符串比较代码的漏洞
  • ¥15 欧拉系统opt目录空间使用100%
  • ¥15 ul做导航栏格式不对怎么改?