大文本重复数据

比如a文件和b文件都是手机号码。一行一个。
我要找出两个文件合并一起的重复号码。
2个文件都有百万级数据。用java实现
怎么做效率更好。更快。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

15条回答默认最新

iteye_7115 2012-08-27 14:55

关注

发一个相同案例：

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别存储到1000个小文件（记为a0,a1,...,a999）中。这样每个小文件的大约为300M。

遍历文件b，采取和a相同的方式将url分别存储到1000小文件（记为b0,b1,...,b999）。这样处理后，所有可能相同的url都在对应的小文件（a0vsb0,a1vsb1,...,a999vsb999）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。

方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(14条)

报告相同问题？

关注问题

JAVA文本去重查重判断文件重复工具程序源代码查重是指对文本、论文、作业等进行重复率检测，以防止学术不端和抄袭查重主要是通过
2024-01-04 07:39

JAVA文本去重查重判断文件重复工具程序源代码查重是指对文本、论文、作业等进行重复率检测，以防止学术不端和抄袭。查重主要是通过计算机程序对文本进行比对，发现文本中相似或完全相同的部分，生成重复率报告。 ...
Kmeans文本聚类java实现
2015-02-17 10:20

在Java环境中实现KMeans算法进行文本聚类，可以为大数据分析、信息检索和推荐系统等应用场景提供有力支持。 KMeans算法的基本思想是通过迭代过程，不断调整样本的归属，使得同一簇内的样本尽可能接近，不同簇间的...
java 实现读取txt文本数据并以数组形式一行一行取值
2020-08-27 05:16

Java 实现读取 TXT 文本数据并以数组形式一行一行取值 Java 是一种流行的编程语言，广泛应用于各种领域。在实际开发中，我们常常需要读取文本文件中的数据，并将其转换为数组形式，以便于后续处理。在这篇文章中，...
DuplicateChineseText:中文文本重复
2021-03-30 02:30

当我们面临"DuplicateChineseText:中文文本重复"这样的问题时，意味着我们需要处理的是大量可能存在重复内容的中文文本数据。这个问题在Java开发中尤为常见，因为Java作为广泛应用的编程语言，其丰富的库和工具为...
java 两个数组去重复数据_Java实现数组去除重复数据的方法详解
2021-03-09 09:29

apr01的博客本文实例讲述了Java实现数组去除重复数据的方法。分享给大家供大家参考，具体如下：前一段时间被面试问到：如果一个数组中有重复元素，用什么方法可以去重？一时间会想到用一种方法，但是后来查阅资料后发现，有好多...
Java实现文本查重
2023-09-17 14:35

-tiu的博客对于前面合并后得到的文本的权重向量，大于0的位置1，小于等于0的位置0，就可以得到该文本的SimHash值，以上面提到的[3，4，1，5，-5，1]为例，我们得到[1，1，1，1，0，1]这个bit串，也就是论文中提及的该文本的...
Java：从文本中随机提取不重复的某几行
2019-10-10 08:20

萤火AI百宝箱的博客【第二步】根据提取数量，随机选取不重复的几行数据【第三步】提取结果代码实现 /** * @Title: 提取文本 * @MethodName: abstractTxt * @param txt * @param abstractNum * @Return void ...
基于余弦相似度算法的新闻内容去重系统_爬虫抓取新闻数据_通过计算文本相似度避免重复存储相同或高度相似新闻_Java实现字符串相似度比较_支持大规模文本数据处理_适用于新闻聚合平台和.zip
2025-08-20 11:19

Java实现的字符串相似度比较功能可以高效地计算大量新闻文本之间的相似度，这对于支持大规模新闻数据处理是十分必要的。此外，该系统还特别适用于新闻聚合平台。新闻聚合平台通常需要从不同的新闻源抓取内容，然后...
超快速，文本去重复工具，利用java自身的机制
2013-03-19 11:08

在IT行业中，文本去重复是一项常见的任务，尤其是在大数据处理、信息检索、文本挖掘等领域。本文将深入探讨如何利用Java自身的机制来实现超快速的文本去重复功能，这是一门技术含量高、实用性强的技能。首先，从...
Java Deeplearning4j：实现文本分类
2024-10-09 00:30

越重天的博客在本文中，我们介绍了如何使用 DeepLearning4J 构建、训练和评估文本分类模型。我们首先准备了数据集，并进行了数据预处理和向量化。然后，我们构建了一个 RNN 模型，并配置了训练参数。最后，我们使用训练数据训练...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

大文本重复数据

15条回答默认最新

码龄粉丝数原力等级 --

大文本重复数据

15条回答 默认 最新

15条回答默认最新