给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，

给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

这是网上的思路：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

    1）分而治之/hash映射：遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件中（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

    2）hash统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了

求一份最优的代码实现

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2016-10-02 14:46
关注
http://blog.163.com/xjt_matlab/blog/static/2365561052015112185220550/

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
2019-10-23 18:21

乔治大哥的博客给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 两种方法：一、采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，...
代码实现【mini版】——给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
2019-10-23 21:34

乔治大哥的博客将文件中的信息当成我们文本中的每行文件，然后两个文件中分别是100条信息，然后进行读取 hash(url) %5 首先准备两个文件：xxoo.txt ooxx.txt 取模并且存储到5个小文件中。代码清晰易懂。适合初学。 package...
给定a、b两个文件，各存放50亿个url，每个url各占64字节
2020-08-28 20:50

AI算法网奇的博客给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 两种方法：一、采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，...
【面试题】海量数据处理：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
2022-10-17 21:57

dreamer'~的博客海量数据处理面试题：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
2022-02-04 09:13

Java免试袁的博客方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别...
给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？...
2019-09-25 12:52

diaogu9242的博客题目描述：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？分析：我们先来看如果要把这些URL全部加载到内存中，需要多大的空间。 1MB = 2^20 = 10^6 = ...
给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？
2017-10-19 09:20

Vanguard5的博客题目描述：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？分析：我们先来看如果要把这些URL全部加载到内存中，需要多大的空间。 1MB = 2^20 = 10^6 ...
给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url。...
2019-08-23 10:29

chuqi3828的博客方案1：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。　遍历文件a，对每个url求取hash(url)%1000，然后根据所取得的值将url分别...
给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？（转）待自己补充
2011-04-22 09:07

mingming_bupt的博客给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。...
海量数据面试题整理1.给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是...
2015-01-30 01:56

weixin_34392843的博客海量数据面试题整理　1. 给定a、b两个文件，各存放...
没有解决我的问题, 去提问

给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，

求一份最优的代码实现

1条回答 默认 最新

1条回答默认最新