hive，sql，重复主键不重复值，大小表关联怎么处理

有表A和B，A表100万条数据，B表1万条。想根据表A和B生成一个新表C，新表C中有表A所有数据和表B中segment字段数据。关联关系是rid和resid。
如果满足三范式，直接a left join b就好了
现在问题是表A中有重复主键rid，重复主键每一条数据都不一样（hive表牺牲空间换时间），不能直接distinct

A表如下

B表如下

我现在想的是用A.distinct rid join B 得到一个唯一id关系表

然后用表A join这个唯一id表就可以关联到所有sgment字段

也不知道对不对，因为还没有资源跑sql，想问问老哥们有没有更好的方法

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
自在猫先生 2023-06-30 11:40
关注
源于chatGPT仅供参考

如果表A中有重复的主键rid，并且每条数据都不相同，那么在进行关联操作时，不能直接使用DISTINCT来去除重复的数据。在这种情况下，可以考虑以下两种方法： **1. 使用子查询或聚合函数：** 您可以使用子查询或聚合函数来处理表A中的重复数据，以便进行关联操作。例如，您可以使用GROUP BY语句将表A中的重复主键聚合，并根据需要选择其中的某一条记录。然后，再将这个结果与表B进行关联。示例SQL语句： ```sql SELECT A.rid, MAX(A.column1), MAX(A.column2), ..., B.segment FROM tableA A JOIN tableB B ON A.rid = B.resid GROUP BY A.rid, B.segment

上述示例中，使用MAX函数仅作为示例，您可以根据实际需求选择适合的聚合函数或子查询方式。

2. 使用窗口函数：
另一个处理重复数据的方法是使用窗口函数（Window Function）。窗口函数可以在计算过程中对分组内的数据进行排序和筛选，并从中选择特定的行。

示例SQL语句：

SELECT rid, column1, column2, ..., segment FROM ( SELECT A.rid, A.column1, A.column2, ..., B.segment, ROW_NUMBER() OVER (PARTITION BY A.rid ORDER BY A.column1) AS row_num FROM tableA A JOIN tableB B ON A.rid = B.resid ) AS temp WHERE row_num = 1

上述示例中，使用ROW_NUMBER函数和PARTITION BY子句将表A中的重复主键分组，并根据需要选择其中的第一条记录。

请注意，以上方法仅为处理表A中重复主键的示例，您可以根据实际情况和需求进行调整。同时，如果表A中的数据量非常大（如100万条），在执行关联操作时可能会对性能产生一定影响，因此请根据具体情况进行评估和优化。

```
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hive编写sql命令查询统计百分比 hive mysql sql
2022-05-03 00:42

回答 2 已采纳首先两张表关联起来，然后计算Lenovo订单数量，再除以总数量就可以了 select (select count(1) from orders o join items i on o.item_id
hive sql 行列转置问题 hive sql 数据仓库有问必答
2022-01-15 13:24

回答 2 已采纳右边的6个列每2个列一组，加一个静态的职位字段，一共三个列，用union all拼接起来，再用字符串聚合把职位拼起来。这个方法应该是可用的。至于用lateral view explode进行行列转换的
hive sql 填充数据的问题 hive sql 数据库
2022-01-15 15:13

回答 2 已采纳 hive有个函数Lag，取前n条，你可以指定取前一条，然后判断，如果本身是null或空，就取lag的前一条，否则就用本身。当然这个函数有个条件，是你得指定至少一个排序字段，否则无法判断哪个是上一条
hive中多表full join主键重复问题
2022-01-24 16:12

电光闪烁的博客在Hive中（其他类似SQL，比如PostgreSQL可能也存在此问题），当对多张表（3张及以上）进行full join时，会存在每张表的主键都是唯一，但当full join后，会发现主键可能有重复。 2. 问题复现 2.1. 建表语句 ...
Hive SQL问题，如何汇总当前日期所在月已经完成的总量？ hive python sql 有问必答
2021-10-11 20:14

回答 1 已采纳可以通过开窗函数sum() over (partition by xxx order by xxx )来实现，具体使用方法可以网上查下，有很多资料
hadoop/hive 用sql语句链接表 hive sql
2022-07-04 20:47

回答 5 已采纳两个表都有_c1字段，使用select *导致结果集有两个_c1字段。改成select dws_cityhouse.*, dws_zll.dist, dws_zll._c1 as _c5 试试
如何实现hive更新数据时假如与旧数据重复就不执行数据更新？ hive sql 数据库
2023-04-07 00:25

回答 3 已采纳旧数据 left join 新数据选出旧数据关联不上的（也就是旧数据有，新数据没有的），然后再与新数据union ，这样没更新的旧数据就和新数据在一个表了
数仓工具—Hive语法之连续full join主键重复(24)
2022-10-12 12:20

不二人生的博客这一节主要介绍了full join 下关联主键重复的问题第一个问题就是严格限制关联条件顺序的情况下，结果还是不对的问题暂时没有找到原因，但是我们可以通过合并去重的方案第二个问题就是我们的关联条件有问题，我们可以...
新手入门，一个关于hive sql ,case 的提问 hive sql
2021-09-13 09:34

回答 1 已采纳第二种写法省略了=，但是里面必须是一个值，不能写表达式第一种写法相当于高级语言里的if,then,else第二种写法相当于switch,case你不能在case里面再写大于小于，只能写一些固定的值-=
hive的sql计算 hive sql 数据仓库
2022-04-06 17:10

回答 1 已采纳一天之内，同一个用户访问同一个绘本的同一页，是有可能出现多条记录的，而单行的退出时间减进入时间只表示单次的记录，考虑到你最终结果里存在"观看次数"这个字段，这个字段肯定是要count的，因此多行的观看
大数据hive分区表导入数据的问题 hive 大数据
2018-01-07 12:34

回答 5 已采纳 http://blog.csdn.net/fjssharpsword/article/details/64919412
大数据面试题 —— Hive
2024-05-19 14:54

夏木夕的博客（1）承UDF或者UDAF或者UDTF，实现...（2）打成jar包，上传到服务器（3）执行命令add jar路径，目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"（5）在select中使用 UDF 函数。
hive sql 正则提取问题 hive python sql
2022-05-04 15:30

回答 5 已采纳试下这个 import re texts = [ "A037.08.151.1.12", "G037.08.157", "Z03.08.152.1", "Q1037.
大数据Hive离线计算开发实战笔记第一章
2023-10-25 15:42

qq_31336073的博客第一范式：表中的每个字段是不可拆分的，比如三年二班，可以拆分成三年级和二班第二范式：建立在第一范式的基础上，主键的唯一性，但如果数据出现重复，要把表拆分开来不符合第二范式的表格 Name Code DataType ...
pyspak（二）Hive 巡检工具-对表数据量、主键重复数量以及每个字段标签的空值检测
2023-06-06 14:03

小菜菜1223的博客 1、准备一个表，里边存储已经不需要监控的字段or已经失效的字段。（2）规则类型用来区分是表or字段的检测规则。2、利用pyspark分别对各个规则进行检测。1、读取上边我们在表里的规则配置信息。3、讲结果写入数据表...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月30日

悬赏问题

¥15 找一个QT页面+目标识别（行人检测）的开源项目
¥15 有没有整苹果智能分拣线上图像数据
¥20 有没有人会这个东西的
¥15 cfx考虑调整“enforce system memory limit”参数的设置
¥30 航迹分离，航迹增强，误差分析
¥15 Chrome Manifest扩展引用Ajax-hook库拦截请求失败
¥15 用Ros中的Topic通讯方式控制小乌龟的速度，走矩形；编写订阅器代码
¥15 LLM accuracy检测
¥15 pycharm添加远程解释器报错
¥15 如何让子窗口鼠标滚动独立，不要传递消息给主窗口

hive，sql，重复主键不重复值，大小表关联怎么处理

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新