普通网友 2014-12-11 10:32 采纳率: 33.3%
浏览 4887
已采纳

大众点评面试题:有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query....

有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序10个文件中的所有query。
http://www.manong1024.com/q/355

  • 写回答

1条回答

  • modii 2014-12-12 02:28
    关注

    先说解决方案。在不计内存消耗的情况下。构建一个全局Map,其中Key为query,value为计数器。然后开10个线程,分别读取文件,然后,操作Map,如果key已存在,value计算器加1,如果Key不存在,新增一个Entry,value记为1。。当然处理时主要多线程同步就行了。。。。当然也可以构建10个Map,都处理完后做Map合并。。。最后对Map进行排序就可以了。。。处理过程中,如果内存开销太大可以将Map改为数据库存储。就可以了。。。。。。当然如果有hadoop平台直接使用wordcount就更完美了。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥30 这是哪个作者做的宝宝起名网站
  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!