大量日志文件统计的做法

linux下每天产生20G的日志文件,里面记录了访问的ip地址、时间、客户信息等(用 | 隔开),现在想要统计访问量排名前10的ip地址,请教大神们该怎么做?

5个回答

这么大数据量需要放到spark等集群中处理

hdfs分块存储,之后大数据解析

一个map表,结构,从日志文件中读取后再根据访问次数排序,取前10即可

{ip地址,访问次数} 结构一个map表,结构,从日志文件中读取后再根据访问次数排序,取前10即可

谢谢各位大神,说的方法都可行,但是最多只能采纳一个。。。我发现linux awk命令很强大,可以做到分析,而且统计20G的文件居然只要12分钟左右……

qq_38347033
qq_38347033 可是只能进行单机操作
大约 2 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐