sudiliuxin 2010-03-27 09:06
浏览 280
已采纳

大数据量

有个这样的需求:
1小时从交换机转来上亿条的数据到系统中,
要对数据进行挖掘分析,进行汇总,分析,处理,查询
要求我做整个架构(包括前台服务器,数据库怎么设计,那些库用来做挖掘,那些库做统计等等 )
我以前只有零散的东西:比如:分批处理,使用临时表和中间表,优化SQL,这些都是具体的细节,谈不上架构,请问大牛在这样的需求是怎么做的架构?

随便能否把迅雷部分面试题给个思路?
1)在1亿条用户记录里,如何快速查询统计出看了5个电影以上的用户?
2)用java怎么实现有每天有1亿条记录的DB存储?mysql上亿记录数据量的数据库如何设计?
感谢!

  • 写回答

3条回答 默认 最新

  • qwe_rt 2010-03-27 09:44
    关注

    [quote]在1亿条用户记录里,如何快速查询统计出看了5个电影以上的用户? [/quote]
    利用索引机制快速找出。

    [quote]用java怎么实现有每天有1亿条记录的DB存储?mysql上亿记录数据量的数据库如何设计? [/quote]
    用大型的数据库比较好,如oracle等。

    1亿条数据,如果仅仅是存储的话, 平均下来一秒钟1157条数据,这个很难做到了,I/O也来不及传输啊。
    用key-value存储。

    看看这个:一秒插入500条数据的讨论http://bbs.firnow.com/dview31t50362.html

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器