大量日志文件统计的做法

linux下每天产生20G的日志文件，里面记录了访问的ip地址、时间、客户信息等（用 | 隔开），现在想要统计访问量排名前10的ip地址，请教大神们该怎么做？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-12-04 01:00
关注
这么大数据量需要放到spark等集群中处理

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

大量日志文件统计的做法大数据
2016-12-03 17:15

回答 5 已采纳这么大数据量需要放到spark等集群中处理
nginx日志文件统计的命令或脚本 linux
2019-10-25 10:02

回答 2 已采纳可以用 awk 解析后按时间进行分组：https://blog.csdn.net/thenowaiting/article/details/80182465 根据你的文本样例写了一个： ```
Python传感器日志光照统计 python
2022-05-29 20:57

回答 1 已采纳程序没问题，就是列表取值位置可能不对，题目说了前面还有日期和时间，所以光照这个数值的位置可能在ls[4]而不是ls[2]
大数据系列之日志数据实时分析计算
2021-07-05 09:05

solihawk的博客日志数据实时分析计算基于Spark Streaming和Kafka实现，本文主要介绍其中采集模块、数据清洗模块、指标计算模块、数据存储模块。
tomcat日志文件，但运行无措 tomcat
2016-02-16 04:23

回答 1 已采纳在server.xml中查看access日志的配置，看下pattern对应的是什么含义。默认的%b是发送字节数，参考： http://hooray520.iteye.com
aop做日志记录日志统计 java
2021-10-27 16:48

回答 1 已采纳写个类加上@Aspect 说明这是一个代理类定义请求日志切入点，其切入点表达式有多种匹配方式,这里是指定路径@Pointcut("execution(public * com.soyoung.ad.
eureka客服端大量打印日志 java
2022-05-10 18:36

回答 3 已采纳日志级别改为info
大数据整体架构.zip
2024-03-22 22:50

在数据收集方面，该文档详细介绍了如何从各种来源获取数据，包括传统的数据库、日志文件、社交媒体、物联网设备等。同时，它还讨论了数据清洗和预处理的重要性，以确保数据的质量和准确性。在数据存储方面，该文档...
filebeat读取不到旧日志文件 elasticsearch
2023-03-24 14:15

回答 1 已采纳 Filbeat 有一种机制就是读过的文件不会再摄入了，否则就会有重复的文档被摄入。当你第一次使用 filebeat 摄入数据时，它数据摄入过的数据有记录，它就会在本地的一个文件里保存这个记录。即便你在
nginx日志统计response bytes linux ssh
2022-12-29 10:32

回答 1 已采纳 grep "1h" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | awk '{sum+=$2} END {print
log4j每天生成一个当天日期文件夹，在当天文件夹中生成规定名称和大小的日志文件
2019-12-27 17:45

回答 2 已采纳 ``` debug
基于大数据的网站日志分析系统
2019-12-08 14:55

只爭朝夕不負韶華的博客基于大数据的网站日志分析系统的整个流程分为五个部分进行介绍。第一部分介绍日志数据格式。第二部分介绍负责采集日志记录的数据采集模块。第三部分介绍负责存储日志同时对数据进行清理的数据存储模块。第四部分介绍...
log日志输出为文件 java spring spring boot
2022-06-23 18:13

回答 4 已采纳 LoggerFactory.getLogger(XXX).info
分布式服务架构-第四章 大数据日志系统的构建
2022-02-14 00:54

zhendeWD的博客 1.开源日志框架的原理分析与应用实践 1.1 JDK Logger 不需要集成任何类库，只要有jvm运行环境，直接使用。级别：all、finest、finer、fine、config、info、warning、servere、off public static Logger logger = ...
猿创征文｜Hadoop大数据技术综合实验
2022-09-12 08:00

啊Q老师的博客 Hadoop大数据技术综合实验：网站访问日志采集、处理及分析
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

大量日志文件统计的做法

5条回答 默认 最新

悬赏问题

5条回答默认最新