给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，

给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？

这是网上的思路：可以估计每个文件安的大小为5G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

    1）分而治之/hash映射：遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。遍历文件b，采取和a相同的方式将url分别存储到1000小文件中（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

    2）hash统计：求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了

求一份最优的代码实现

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2016-10-02 14:46
关注
http://blog.163.com/xjt_matlab/blog/static/2365561052015112185220550/

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，
2016-10-02 11:04

回答 1 已采纳 http://blog.163.com/xjt_matlab/blog/static/2365561052015112185220550/
给定N个正整数，请统计奇数和偶数各有多少个？ c语言有问必答
2021-12-31 12:06

回答 3 已采纳 scanf("%d ",&a[n]);改为scanf("%d",&a[i]); #include<stdio.h> int main() { int n,i,j,k; in
给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
2019-10-23 18:21

乔治大哥的博客给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 两种方法：一、采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，...
编写程序，求一个给定的m×n矩阵各行元素之和。 c语言
2023-04-15 11:20

回答 2 已采纳基于Monster 组和GPT的调写： #include <stdio.h> int main() { int m, n; printf("请输入矩阵的行数m和列数n（
给定两个不同的正整数 a, b， java 有问必答
2022-04-09 09:53

回答 2 已采纳 public static int gcd1(int p, int q){ // 若q为0，则最大公约数为p if(q == 0) { re
python 给定两个List求交集 python 有问必答算法
2023-02-03 22:24

回答 4 已采纳 list1=[1,1,1,2,2,2,3,3,3,7,8,9,10,10,10] list2=[1,1,2,3,8,10,10,10,13,13] # 得到每个数组中数字及对应的数量 s={n:l
代码实现【mini版】——给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
2019-10-23 21:34

乔治大哥的博客将文件中的信息当成我们文本中的每行文件，然后两个文件中分别是100条信息，然后进行读取 hash(url) %5 首先准备两个文件：xxoo.txt ooxx.txt 取模并且存储到5个小文件中。代码清晰易懂。适合初学。 package...
给定一个日期计算下两天日期 c语言
2022-11-05 20:19

回答 1 已采纳供参考： #include <stdio.h> int IsLeapYear(int y) { return ((y % 4 == 0 && y % 100 != 0) || (y
python给定两个函数和定义域，判定两个函数是否构造为复合函数。 python virtualenv
2021-10-27 14:55

回答 1 已采纳 # 我是这么理解的 # 首先是获取一个函数的定义域和值域,比如 f1 = [(4,3),(5,6),(6,5)] # 这个是f1的定义域和值域 f1Define = set([x[0] for x
本题要求两个给定正整数的最大公约数和最小公倍数。 c++ c语言
2021-12-24 11:31

回答 1 已采纳 https://blog.csdn.net/qq_41863100/category_11361326.html
给定a、b两个文件，各存放50亿个url，每个url各占64字节
2020-08-28 20:50

AI视觉网奇的博客给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url? 两种方法：一、采用Bloom filter，假设布隆过滤器的错误率为0.01，则位数组大小m约为输入元素个数n的13倍，...
判断一个给定的正整数是否是素数 python
2022-03-22 21:35

回答 1 已采纳漏掉了1既不是质数也不是合数 import math n=int(input()) for i in range(n): m=int(input()) if m==1:
【面试题】海量数据处理：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
2022-10-17 21:57

dreamer'~的博客海量数据处理面试题：给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？
给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？...
2019-09-25 12:52

diaogu9242的博客题目描述：给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？分析：我们先来看如果要把这些URL全部加载到内存中，需要多大的空间。 1MB = 2^20 = 10^6 = ...
没有解决我的问题, 去提问

悬赏问题

¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题

给定ab两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，

求一份最优的代码实现

1条回答 默认 最新

悬赏问题

1条回答默认最新