Drop1 2023-01-28 21:42 采纳率: 37.5%
浏览 37
已结题

求所有数据中最贴近哪个值

问题遇到的现象和发生背景

我在统计分析日志,其中一个日志文件的数据是这样的:

处理时间在0到1小时之间的记录有1000条,
处理时间在1到2小时之间的记录有23条,
处理时间在2到3小时之间的记录有5条,
处理时间在3到4小时之间的记录有3条,
处理时间在4到5小时之间的记录有2条,
处理时间在5到6小时之间的记录有1条,
处理时间在6到7小时之间的记录有1条,
处理时间在7到8小时之间的记录有1条,
处理时间在8到9小时之间的记录有0条,
处理时间在22到23小时之间的记录有2条,
处理时间在23到24小时之间的记录有2条,

我的解答思路和尝试过的方法:

我的想法有些简单,就是计算每个时间区间的记录数占记录总数的百分比,但这样是不是太简单了?另外,这样也无法求出“1”个值,也无法根据看这个值来确定哪些记录一眼就看出是正常情况,哪些是异常情况。

我想要达到的结果:
    用数学中的概率学知识,根据上面的所有数据进行统计,统计出一个概率最大的值?我这里说“概率最大的值”可能表达得不对和不清楚,我是想:根据看这个值,就可以一目了然、一眼就能看出哪些处理时间是错的,比如上面的数据:“处理时间在0到1小时之间的记录有1000条,”,占了绝大多数,那么当我看到处理时间在“23到24小时”之间的记录时,我立马就能知道这是异常情况,所以,我估计这个值大概是:1.xxxx,但如何计算我还想不明白,所以想请教!另外,我觉得这可能是一个变化的曲线,我想知道整个变化的曲线往哪偏?

我的需求:可能就是想找到所有这些值最贴近哪个值。

  • 写回答

3条回答 默认 最新

  • bingbingyihao 2023-01-28 22:11
    关注

    回答:你采用占比乘以自己的值作为结果,然后相加得到最终结果类似求加权平均,不就可以得到一个大致处理时间,在这个处理时间的一个范围内,你都可以认为是合理的,这样也蛮简单的,虽然说会受到一些偏离值的影响,但在数据量多的时候,最终的结果受到的影响应该不大。例如上述数据得到的值为:0.5* 1000/1040 + 1.5 * 23 / 1040 + ……(注:1040=1000+23+5+3+2+1+1+1+0+2+2)
    整个变化的曲线,你倒是可以将这些处理时间对平均值进行除法,得到一个小数,这个小数可能大于1,可能小于1,大多都在1附近,然后画出一个折线图,可以反映你的系统的处理时间的波动情况,这样还蛮直观的,用python写应该还不错

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 5月25日
  • 已采纳回答 5月17日
  • 创建了问题 1月28日

悬赏问题

  • ¥15 Apache显示系统错误3该如何解决?
  • ¥30 uniapp小程序苹果手机加载gif图片不显示动效?
  • ¥20 js怎么实现跨域问题
  • ¥15 C++dll二次开发,C#调用
  • ¥15 请教,如何使用C#加载本地摄像头进行逐帧推流
  • ¥15 Python easyocr无法顺利执行,如何解决?
  • ¥15 为什么会突然npm err!啊
  • ¥15 java服务连接es读取列表数据,服务连接本地es获取数据时的速度很快,但是换成远端的es就会非常慢,这是为什么呢
  • ¥15 vxworks交叉编译gcc报错error: missing binary operator before token "("
  • ¥15 JSzip压缩文件时如何设置解压缩密码