【数据库】我需要一个查重效率高的方法

本人用的hive，可以理解为关系型数据库，现在的需求是，有一塔数据，数据中都有手机号，我需要看看这一沓数据中有哪些是数据里已经有了的。

目前我的做法是，先取一条，然后按照手机号遍历整张表，然后下一条，遍历，下一条，遍历。。。。。。

我觉得此法即使加了索引效率也很低，求一个效率高的sql，或者思路

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

10条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lPsycongroo 2018-03-21 08:26
关注
用分组查询不行吗，根据手机号码分组，总数大于1的就是有重复的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(9条)

报告相同问题？

关注问题

【数据库】我需要一个查重效率高的方法 hive java 大数据数据库
2018-03-19 08:39

回答 10 已采纳用分组查询不行吗，根据手机号码分组，总数大于1的就是有重复的
Java建议转大数据吗本科 etl工程师大数据数据库开发
2022-07-02 22:58

回答 2 已采纳你所搜的岗位都有，但是每个岗位的工作内容有很大的区别比如大数据开发工程师，这是一个比较宽泛的定义，没有具体到岗位职责，可以是etl工程师，也可以是大数据平台开发，也可以是大数据实时开发，也有大数据运维
我需要一个省市区镇街道五级联动数据库并且需要经纬度，大家说怎么搞数据库
2018-12-04 04:33

回答 1 已采纳百度地图api就可以批量获取经纬度。 [](https://bbs.csdn.net/topics/391040534 "")
大数据面试常见问题（一）——Oracle部分
2022-05-19 20:37

大数据求学路的博客散列分区：通过指定分区数量或编号来均匀分布数据的一种分区类型，分区数量常采用2的N次方；当列的值没有合适的条件时，采用散列分区；组合分区:范围分区和列表分区组合；范围分区和散列分区组合，分区中的分区被...
在sql中多大的数据才算是大数据？ java mysql 数据库
2022-03-31 17:24

回答 5 已采纳其实没有实际的标准明确定义多少数据量算大数据，不过阿里开发手册中建议，表数据超过500万条时，建议考虑分表，以防影响查询效率，不过我们公司也有单表超过几千万条的数据，效率确实不高，所以理论上百万级别以
大数据用的nosql与传统型数据库的比较？ java 向大咖问开源
2021-04-03 00:10

回答 2 已采纳 nosql和sql并不是一个对立的概念。 大数据其实不光使用nosql的数据库，也使用传统关系型数据库。 hbase和mysql最终要的一个差别就是存储上hbase是按列存储，mysql是按行存储
大数据开发小白，求电脑推荐大数据数据库有问必答
2021-10-01 20:36

回答 3 已采纳开发，买内存大一点的，因为比较耗内存。条件允许可以考虑苹果笔记本。否则可以考虑买联想系列。如果是学生，买价格4000多的就够了，i5处理器，4g或者8g运行内存。如果为了工作中用，买价格6000左右的
一千万条数据去重_大数据去重方案
2020-12-23 10:55

阿猴HOSEA的博客 数据库中有有一张表专门存储用户的维度数据，由于随着时间的推移，用户的维度数据也可能发生变化，故每一次查看都会保存一次记录。现在需要对数据按用户分析，但当中有大量的重复数据，仅用数据库的等值去重明显不...
一个关于数据库级别的并发问题数据库负载均衡
2017-01-20 15:22

回答 3 已采纳这边没人，具体大家看下面这个吧，这个讨论出了一些解决方案。 http://bbs.csdn.net/topics/392079561
将一个jsp页面内容放到数据库 java 数据库
2017-05-25 07:52

回答 6 已采纳以Oracle数据库为例：把jsp的内容存进clob类型的字段中；点击某个按钮，从数据库中取出该jsp内容，加载的前台的空jsp页面中即可。不知道是不是你要的答案。
数据库一项特殊的统计,求高效率点的算法 sql 数据库
2015-06-06 01:35

回答 4 已采纳 select * from table a where exists(select pk from (select count(*) n ,pk from table group by pk) b w
大数据生态系统组件基础学习
2022-07-28 11:02

m0_62653861的博客 大数据生态系统，特别是几大主流数据库之间的基础语法学习
oracle数据库批量修改一个字段数据 oracle 数据库
2017-09-16 02:26

回答 2 已采纳 https://www.2cto.com/database/201701/589415.html
大数据治理之我见
2019-06-19 16:12

数通畅联的博客 大数据理念从被炒火至今一直持续着热度，很多企业也开始抱着理性的态度去看待大数据分析，在笔者之前的文章中曾写道，大数据并不是适合所有企业，即使要做大数据分析，也要有一套正确的理念和落地方案，包括：意识...
【布隆过滤】大数据+查重过滤+爬虫领域精选算法Python ，C++，Java实现源码放送~
2020-08-11 15:02

cv君的博客文章目录一、算法简介二、数据如何存入布隆过滤器三、布隆过滤器为什么会有误判四、底层原理：HashMap 的问题布隆过滤器数据结构使用场景python实现（看这里）六、使用方法重点：简单测试：c++代码实现：Java实现...
没有解决我的问题, 去提问

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 虚心请教几个问题，小生先有礼了
¥30 截图中的mathematics程序转换成matlab

【数据库】我需要一个查重效率高的方法

10条回答 默认 最新

悬赏问题

10条回答默认最新