【数据库】我需要一个查重效率高的方法

本人用的hive，可以理解为关系型数据库，现在的需求是，有一塔数据，数据中都有手机号，我需要看看这一沓数据中有哪些是数据里已经有了的。

目前我的做法是，先取一条，然后按照手机号遍历整张表，然后下一条，遍历，下一条，遍历。。。。。。

我觉得此法即使加了索引效率也很低，求一个效率高的sql，或者思路

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

10条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lPsycongroo 2018-03-21 08:26
关注
用分组查询不行吗，根据手机号码分组，总数大于1的就是有重复的

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(9条)

报告相同问题？

关注问题

处理海量数据的查重方法总结
2024-12-07 16:54

FHKHH的博客在面对超出内存处理能力的大数据场景（如日志处理、大型文件去重等）时，需要设计高效的算法和系统架构。以下是针对不同场景提出的几种解决方案，包括具体实现思路及适用场景。根据实际需求和资源条件选择合适的方案...
大数据查重-布隆过滤器
2025-03-05 21:37

liujjjiyun的博客我们有一个客户端请求到后端服务，提交一个注册或者登录按钮。后端服务器有一个I/O模块，就是网络层，专门接收用户的请求。
大数据面试常见问题（一）——Oracle部分
2022-05-19 20:37

大数据求学路的博客散列分区：通过指定分区数量或编号来均匀分布数据的一种分区类型，分区数量常采用2的N次方；当列的值没有合适的条件时，采用散列分区；组合分区:范围分区和列表分区组合；范围分区和散列分区组合，分区中的分区被...
基于Hadoop的课程诊改大数据可视化分析研究与应用.docx
2023-11-06 17:29

Hadoop是Apache基金会开发的一个开源框架，主要设计用于处理和存储大规模数据。它的核心思想是分布式存储和并行计算，使得处理海量数据变得可能。Hadoop架构由两个主要部分组成：Hadoop Distributed File System ...
人像大数据解决方案.docx
2025-05-05 00:57

在当前城市化和信息化快速发展的背景下，城市管理和治安问题日益突出，迫切需要更高效的人像大数据解决方案来应对人口密集、犯罪手法先进和网络犯罪等问题。人像大数据技术的应用，将公安工作从传统的“事后被动侦查...
大数据环境下的高校科研管理信息化探索.pdf
2021-07-04 15:11

1. 信息建设尚处于探索阶段：主要表现在数据库中存在大量闲置数据，科研人员还在搜集价值不高的数据，导致资源浪费和科研管理效率低下。 2. 信息化理念落后：部分高校科研管理人员理念滞后，重视经费和项目管理，...
paperpass查重
2018-06-22 10:16

PaperPass利用大数据和先进的文本比对技术，对比用户提交的论文与海量的网络资源、学术文献库和已发表论文，找出相似度高的段落，生成详细的查重报告。报告通常会显示相似内容的比例、来源及具体相似段落，供作者...
基于Hadoop大数据集群的搭建.docx
2023-11-07 09:22

HDFS是一个高容错性的分布式文件系统，它将大型数据集分割成多个块并分布在多台机器上，保证了数据的可靠存储和快速访问。MapReduce是Hadoop的计算模型，它将复杂任务分解为映射（map）和化简（reduce）两步，便于...
基于大数据挖掘的科技项目查重模型研究.pdf
2021-07-14 15:35

在科技项目查重模型中，这一方法将使得不同的数据源，如科技项目库、学术论文数据库、专家和机构信息等，能够得到整合，形成一个统一、全面的查重数据集。这样不仅能够提高查重的准确性，还能在一定程度上解决由于...
大数据量导入去重的优化方法探讨
2024-11-12 10:27

XMYX-0的博客以下是具体的操作步骤和性能分析：使用临时表缓存导入数据在导入新数据之前，先将其插入到一个临时表中，临时表的结构与原始表保持一致。这样可以避免直接操作原始表，提升操作的灵活性和安全性。使用 SQL 查询...
没有解决我的问题, 去提问

【数据库】我需要一个查重效率高的方法

10条回答 默认 最新

10条回答默认最新