问题遇到的现象和发生背景
我在统计分析日志,其中一个日志文件的数据是这样的:
处理时间在0到1小时之间的记录有1000条,
处理时间在1到2小时之间的记录有23条,
处理时间在2到3小时之间的记录有5条,
处理时间在3到4小时之间的记录有3条,
处理时间在4到5小时之间的记录有2条,
处理时间在5到6小时之间的记录有1条,
处理时间在6到7小时之间的记录有1条,
处理时间在7到8小时之间的记录有1条,
处理时间在8到9小时之间的记录有0条,
处理时间在22到23小时之间的记录有2条,
处理时间在23到24小时之间的记录有2条,
我的解答思路和尝试过的方法:
我的想法有些简单,就是计算每个时间区间的记录数占记录总数的百分比,但这样是不是太简单了?另外,这样也无法求出“1”个值,也无法根据看这个值来确定哪些记录一眼就看出是正常情况,哪些是异常情况。
我想要达到的结果:
用数学中的概率学知识,根据上面的所有数据进行统计,统计出一个概率最大的值?我这里说“概率最大的值”可能表达得不对和不清楚,我是想:根据看这个值,就可以一目了然、一眼就能看出哪些处理时间是错的,比如上面的数据:“处理时间在0到1小时之间的记录有1000条,”,占了绝大多数,那么当我看到处理时间在“23到24小时”之间的记录时,我立马就能知道这是异常情况,所以,我估计这个值大概是:1.xxxx,但如何计算我还想不明白,所以想请教!另外,我觉得这可能是一个变化的曲线,我想知道整个变化的曲线往哪偏?
我的需求:可能就是想找到所有这些值最贴近哪个值。