本人刚接手了一个宽带数据分析的项目,由于本人经验不足,现在很茫然,不知道如何开始。
项目的情况大概是这样的:原始数据是一个大概80M的txt文件,里面数据大概是100多万行,
我要做的就是从根据业务需求基于这些原始数据做一些报表的统计分析,我现在的思想是用程序将txt里的数据解析导入到mysql中,然后再根据业务去做功能。但这肯定会很慢,而且这个原始数据还会隔一段时间更新的,所以如果导入数据库中,数据量也会非常庞大的。请有经验的大侠帮我分析分析!!谢谢!!
海量数据分析设计思路?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
4条回答 默认 最新
wuhejian 2008-05-30 18:51关注80M 100多万行的数据其它不大,只是不太清楚你的更新周期是多少。
我觉得有两种方法可以做上面分析:
一、将TXT数据导入数据库(这个导入工作其它很快,我做过一个导日志3000多万记录导入花的时间不多),然后分批取出日志表中的数据进行分析,分析这块可以启多个线程来处理。
其实你在做完这个周期的日志分析后,这张日志表对你来说其实没什么作用,你可以删掉。这样你数据库的量就不会太大。二、可以直接读取TXT文件,将数据一行一行组装成相应的实体对象(其实跟取数据库差不多,只是要你自己从文本里面取数据,按格式取出相应数据,这个其实你在导入数据库的时候也会用到)。在取到一定行数后交给分析线程处理。
上面两种只是数据源不同,你的分析过种其实还是一样的。如果你是文本数据源,我觉得用第二种方法就可以。
像这样的日志分析最好不要在数据库中直接运用SQL来分析。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报