求所有数据中最贴近哪个值

问题遇到的现象和发生背景

我在统计分析日志，其中一个日志文件的数据是这样的：

处理时间在0到1小时之间的记录有1000条，
处理时间在1到2小时之间的记录有23条，
处理时间在2到3小时之间的记录有5条，
处理时间在3到4小时之间的记录有3条，
处理时间在4到5小时之间的记录有2条，
处理时间在5到6小时之间的记录有1条，
处理时间在6到7小时之间的记录有1条，
处理时间在7到8小时之间的记录有1条，
处理时间在8到9小时之间的记录有0条，
处理时间在22到23小时之间的记录有2条，
处理时间在23到24小时之间的记录有2条，

我的解答思路和尝试过的方法：

我的想法有些简单，就是计算每个时间区间的记录数占记录总数的百分比，但这样是不是太简单了？另外，这样也无法求出“1”个值，也无法根据看这个值来确定哪些记录一眼就看出是正常情况，哪些是异常情况。

我想要达到的结果：

    用数学中的概率学知识，根据上面的所有数据进行统计，统计出一个概率最大的值？我这里说“概率最大的值”可能表达得不对和不清楚，我是想：根据看这个值，就可以一目了然、一眼就能看出哪些处理时间是错的，比如上面的数据：“处理时间在0到1小时之间的记录有1000条，”，占了绝大多数，那么当我看到处理时间在“23到24小时”之间的记录时，我立马就能知道这是异常情况，所以，我估计这个值大概是：1.xxxx，但如何计算我还想不明白，所以想请教！另外，我觉得这可能是一个变化的曲线，我想知道整个变化的曲线往哪偏？

我的需求：可能就是想找到所有这些值最贴近哪个值。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bingbingyihao 2023-01-28 22:11
关注
回答：你采用占比乘以自己的值作为结果，然后相加得到最终结果类似求加权平均，不就可以得到一个大致处理时间，在这个处理时间的一个范围内，你都可以认为是合理的，这样也蛮简单的，虽然说会受到一些偏离值的影响，但在数据量多的时候，最终的结果受到的影响应该不大。例如上述数据得到的值为：0.5* 1000/1040 + 1.5 * 23 / 1040 + ……（注：1040=1000+23+5+3+2+1+1+1+0+2+2）
整个变化的曲线，你倒是可以将这些处理时间对平均值进行除法，得到一个小数，这个小数可能大于1，可能小于1，大多都在1附近，然后画出一个折线图，可以反映你的系统的处理时间的波动情况，这样还蛮直观的，用python写应该还不错

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

AI人工智能与数据分析的完美融合之道
2025-06-10 03:30

AI智能架构工坊的博客全球数据量以每年50%的速度增长（IDC数据），但“数据多，价值少”的矛盾日益突出——传统数据分析方法（如Excel报表、SQL查询）只能处理结构化数据，难以挖掘隐藏在非结构化数据（文本、图像、语音）中的深层规律。...
线性代数在数据科学中的应用
2025-09-29 03:27

神经网络是当前数据科学和人工智能领域的热点研究主题，其设计和运行机制也深受线性代数的启发。神经网络中，每个神经元的激活值可以被看作是线性代数中的一个向量，而网络中的权重则对应于一个矩阵。通过矩阵运算，...
数据资产人工智能：AI在数据资产管理中的应用
2023-12-29 01:24

光子AI的博客数据资产人工智能：AI在数据资产管理中的应用数据资产人工智能(Data Asset AI)是一种利用人工智能技术来管理和优化数据资产的方法。在大数据时代，数据资产已经成为企业和组织的核心资产，其价值不断增长。然而，...
数据中台建设系列（四）：数据治理的未来趋势与人工智能的赋能
2025-04-24 08:00

chat2tomorrow的博客本文将聚焦数据治理的未来趋势，探讨人工智能如何为数据治理注入新活力，并结合前沿实践案例，展望数据中台的下一站。数据治理的未来在于智能化与业务驱动，而人工智能与大模型技术正在重塑这一领域。从智能元数据...
数据探索性分析(EDA)——异常值处理
2022-10-06 21:36

别叫我派大星的博客异常值的检测以及处理
【课程笔记】华为 HCIE-AI Solution Architect 人工智能03：数据工程
2025-06-28 20:20

淵_ken的博客 (1) LLM训练数据介绍构建一个LLM包含预训练微调等多个过程：①其中预训练过程需要的数据量最大，涉及网页数据、开源数据集等，数据质量参差不齐，需要进行大量数据预处理②微调过程需要的数据量相对较小，但质量要求...
从数据到智能：数字中台时代数据驱动与AI落地的技术实践与方法论
2025-10-03 16:29

数在表哥的博客数字中台是连接数据与业务的关键，需构建“稳且灵”的技术底座，包括云原生架构（容器化、微服务、DevOps、多云适配）和大数据架构（湖仓一体）。通过分层治理（ODS/DWD/DWS/ADS）实现数据高效流转，结合流批一体...
Python赋能AI数据分析开启人工智能新时代
2024-04-13 19:43

程序边界的博客本书分为两大部分：第一部分（第1~7章）为Python数据分析基础篇，主要介绍Python的工作环境、编程基础、Excel数据文件的操作、Pandas数据包的...学完这部分内容，读者就可以应对工作中大部分初级Python数据分析类工作。
从数据孤岛到智能决策：数据驱动时代下的AI+数据中台实践指南（再谈这个问题之一）
2025-10-10 21:48

数在表哥的博客本文揭示了企业AI项目受阻的根本原因——数据基础薄弱，并提出数据中台作为解决方案。文章指出：数据驱动本质：需确保数据能及时、准确、有效地支持业务决策，而现实中常面临数据孤岛、口径不一、应用局限等问题。 ...
基于人工智能预测的中国国债收益率.pdf
2021-07-10 23:56

总结而言，本文的研究展示了人工智能在金融数据分析中的潜力，特别是在国债收益率预测这一金融市场核心领域。通过有效的数据模型和算法，可以对国债市场的未来走势做出较为准确的预测，从而帮助决策者制定更加合理的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月28日