你好杰米 2018-04-13 02:07 采纳率: 87.5%
浏览 1713
已结题

[hive]现有一HQL语句,使用group by,在5000W下使用造成hive瘫痪,求优化

需求是一个表里的两波数据进行匹配去重,单去重不是单条对单挑的,是先把相同的合并,然后在匹配
例如
编号 姓名 年龄
1 小六 null
1 小七 18

然后新进来的数据与上面的去比较查重
编号 姓名 年龄
1 小六 18

以编号相同为前提查重,这条数据的结果应该是完全重复
我的想法是先将数据库的相同编号的数据group by合并,然后将他们的其他字段保存为数组,然后转为字符串,最后join的时候看看新数据是否包含在原来的字段里

然后写了这个语句,刚开始测试没问题,可以用,后来底层查重的数据变多,5000w,hive经常会死掉,求优化

(join左边的表数据全部的都是不重复的,但是右边的表有重复)
(数据都在一章表里,我通过type来划分成两部分的)

 select t.num from test.data_test as t
inner join (select num,concat_ws(",",collect_set(t1.username)) as username,concat_ws(",",collect_set(t1.gender)) as gender,concat_ws(",",collect_set(cast(t1.age as string))) as age,concat_ws(",",collect_set(t1.city_short)) as city_short from test.data_test t1 
where t1.type != 'ty1'
group by t1.num)t2 
on t.num = t2.num
where t.type = "ty1"
and ((instr(t2.username,t.username) > 0) or t.username is null)
and ((instr(t2.gender,t.gender) > 0) or t.gender is null)
and ((instr(t2.age,cast(t.age as string)) > 0) or t.age is null)
and ((instr(t2.city_short,t.city_short) > 0) or t.city_short is null)

或者请指点这里面那里的操作会很很耗费性能,我们是单线程操作,没有并发

  • 写回答

1条回答 默认 最新

  • 关注

    建议你在数据库层进行操作

    评论

报告相同问题?

悬赏问题

  • ¥15 mmocr的训练错误,结果全为0
  • ¥15 python的qt5界面
  • ¥15 无线电能传输系统MATLAB仿真问题
  • ¥50 如何用脚本实现输入法的热键设置
  • ¥20 我想使用一些网络协议或者部分协议也行,主要想实现类似于traceroute的一定步长内的路由拓扑功能
  • ¥30 深度学习,前后端连接
  • ¥15 孟德尔随机化结果不一致
  • ¥15 apm2.8飞控罗盘bad health,加速度计校准失败
  • ¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
  • ¥15 谁有desed数据集呀