有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序10个文件中的所有query。
http://www.manong1024.com/q/355
大众点评面试题:有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query....
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- modii 2014-12-12 02:28关注
先说解决方案。在不计内存消耗的情况下。构建一个全局Map,其中Key为query,value为计数器。然后开10个线程,分别读取文件,然后,操作Map,如果key已存在,value计算器加1,如果Key不存在,新增一个Entry,value记为1。。当然处理时主要多线程同步就行了。。。。当然也可以构建10个Map,都处理完后做Map合并。。。最后对Map进行排序就可以了。。。处理过程中,如果内存开销太大可以将Map改为数据库存储。就可以了。。。。。。当然如果有hadoop平台直接使用wordcount就更完美了。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥60 版本过低apk如何修改可以兼容新的安卓系统
- ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
- ¥50 有数据,怎么建立模型求影响全要素生产率的因素
- ¥50 有数据,怎么用matlab求全要素生产率
- ¥15 TI的insta-spin例程
- ¥15 完成下列问题完成下列问题
- ¥15 C#算法问题, 不知道怎么处理这个数据的转换
- ¥15 YoloV5 第三方库的版本对照问题
- ¥15 请完成下列相关问题!
- ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?