[hive]现有一HQL语句，使用group by，在5000W下使用造成hive瘫痪，求优化

需求是一个表里的两波数据进行匹配去重，单去重不是单条对单挑的，是先把相同的合并，然后在匹配
例如
编号姓名年龄
1 小六 null
1 小七 18

然后新进来的数据与上面的去比较查重
编号姓名年龄
1 小六 18

以编号相同为前提查重，这条数据的结果应该是完全重复
我的想法是先将数据库的相同编号的数据group by合并，然后将他们的其他字段保存为数组，然后转为字符串，最后join的时候看看新数据是否包含在原来的字段里

然后写了这个语句，刚开始测试没问题，可以用，后来底层查重的数据变多，5000w，hive经常会死掉，求优化

（join左边的表数据全部的都是不重复的，但是右边的表有重复）
（数据都在一章表里，我通过type来划分成两部分的）

 select t.num from test.data_test as t
inner join (select num,concat_ws(",",collect_set(t1.username)) as username,concat_ws(",",collect_set(t1.gender)) as gender,concat_ws(",",collect_set(cast(t1.age as string))) as age,concat_ws(",",collect_set(t1.city_short)) as city_short from test.data_test t1 
where t1.type != 'ty1'
group by t1.num)t2 
on t.num = t2.num
where t.type = "ty1"
and ((instr(t2.username,t.username) > 0) or t.username is null)
and ((instr(t2.gender,t.gender) > 0) or t.gender is null)
and ((instr(t2.age,cast(t.age as string)) > 0) or t.age is null)
and ((instr(t2.city_short,t.city_short) > 0) or t.city_short is null)

或者请指点这里面那里的操作会很很耗费性能，我们是单线程操作，没有并发

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有理想的三流程序员 2018-04-13 08:15
关注
建议你在数据库层进行操作

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hql语句的优化,广告方面的计算 hive hql 数据库 hive sql 大数据有问必答
2022-03-23 14:40

回答 3 已采纳首先，你这个代码本身应该存在问题，t1/t2/t3输出的数据不止一行，因为有"group by ADS_CODe"，但你并没有写任何关联条件，这样会导致产生笛卡尔积，数据结果记录翻倍。然后，要优化这个
hive 中如何使用hql 整除一个数并且余数均分到前面的元素去 hive sql
2022-08-16 12:05

回答 1 已采纳你这个题目是想表达一个均匀分组的场景吗(当记录数不能整除时也可以均匀分组,假设余数为x,前x个分组每个多分配1个)？如果是要对数据进行均匀分组，可以使用hive自带的ntile函数，使用示例如下 se
为什么SparkSQL，dbeaver，hive命令行使用相同的语句操作hive表的结果不一样 hive spark sql 有问必答
2022-03-27 14:34

回答 2 已采纳把情景一改成这样试试spark.sql(""" INSERT INTO hive_test_one.djia_table(date, open, high, low, close, volume,
大数据电商离线数仓项目-上篇
2021-02-04 09:54

工藤-新二的博客 3.1 Hive环境准备 3.1.1 Hive引擎简介 Hive引擎包括：默认MR、tez、spark Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。 Spark on Hive :...
请问大家为什么我连接hive无法执行插入语句呀 hive 大数据数据库
2023-03-14 10:08

回答 1 已采纳 job的执行错误，看下你的脚本代码，去掉可能出错的部分再试试看
hive中group by条件加了一条导致count（*）变多，有什么办法吗？ hive mysql sql 有问必答
2021-08-31 12:03

回答 2 已采纳 select pt_d,prodname,count(*) as 会员数,sum(price)/count(1) as 价格 From X group by pt_d,prodname
hive查询，使用where子查询没有返回结果 hive 大数据
2021-12-18 21:13

回答 1 已采纳 where中又使用了一次emloyees表,和上面的emloyees表没有任何关联关系,你要根据80000.0来定位数据的话,应该是像下面这样写 select name, salary, deduct
大数据开发面试知识点复习2
2022-04-26 20:40

爱敲代码的小黑的博客文章目录大数据开发复习课程1、Hadoop1.1、介绍Hadoop1.2、Hadoop特性优点1.3、hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？1.4、Hadoop主要的配置文件1.5、Hadoop集群重要命令1.6、HDFS的垃圾桶...
如何优化hive动态分区写入速度？ hadoop hive 大数据
2022-05-21 17:53

回答 1 已采纳查询最后加上distribute by ORDERDATEsort by ORDERDATE distribute by按照指定的字段将数据划分到不同的输出reduce中，可以保证每个reduce处理
在使用hive软件创建自定义函数时报错 qwq hive 有问必答
2021-09-05 21:18

回答 1 已采纳堆内存溢出了，你可以参考一下这篇文章解决 Error while processing statement: FAILED: Execution Error, return code 1
在window下初始化hive报错：hive --service schematool -dbType mysql -initSchema hadoop hive
2022-04-10 23:23

回答 1 已采纳解决办法：mysql的hive已经初始化了，删除表，重新初始化
大数据面试题（相关知识点罗列）
2021-01-18 15:19

Nahshon的博客广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈 HDFS：分布式文件系统 MAPREDUCE：分布式运算程序开发框架 HIVE：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具 HBASE：基于HADOOP的分布式...
hive 对字段的值使用case when进行Boolean判断 hive
2022-12-29 17:09

回答 2 已采纳在 Hive 中，你可以使用 CASE 语句来进行分支判断。例如，如果你想判断某个字段 a 的值是否等于 3，可以使用如下的 CASE 语句： SELECT a, CASE WHEN
大数据-数仓分层（五）
2021-01-16 21:11

爱搞技术的吴同学的博客一、数仓分层 1.1 为什么要分层 1.2 数据集市与数据仓库概念 1.3 数仓命名规范 1.3.1 表命名 1.3.2 脚本命名 1.3.3 表字段类型二、数仓理论 2.1 关系建模与维度建模 2.1.1 关系建模 2.1.2 维度建模 2.2 维度表和...
大数据面试知识图谱
2019-09-12 15:20

Hadoop技术博文的博客作者:大数据技术与架构By大数据技术与架构场景描述：大数据开发岗位技能树，学习和复习总纲。关键词：面试 大数据 大纲正所谓，无招胜有招。愿读到这篇文章的技术人早日明白并...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能