几十上百万的数据，逐行遍历切割比较时间太长了，求解优化方法

问题遇到的现象和发生背景

现在遇到要把一个软件的Log数据导出来加以分析，数据量达到几十万甚至上百万，其中的部分数据用切割函数切割出来变成了3X3的List，，然后可能这几十上百万的数据中，大多数都要进行切割，然后跟上一个3X3的List进行比较，同时，还要判断ID是否在字典中，这么做导致运算量巨大，运行时间可能长达几小时，粗略估算应该存在大量的冗余比较。现在逐行切割比较，不太行，效率不行，怎么优化好呢？

问题相关代码，请勿粘贴截图

代码太长了，大致的结构如下：
for i, row in df.iterrows(): # 逐行遍历txt文件

    # 调用Api Call中的SetPosition冗余检查
    if Description.startswith('SetPosition'):  # 筛选要读取Log中的数据
      check_Api_Description(i, df, Description, Timestamp, Game_Object_Name, Timestamp_temp, first)

   check_Api_Description（）函数中进行切割
   xyz = split_Description(Description)  # 调用分割函数，记录SetPosition中xyz,类型为3*3的list，list中的数据为float类型

然后检查字典中是否有同名对象,1为存在，0为不存在，不存在则把新的对象和xyz添加到字典中
flag_check_Dict_Object = check_Dict_Object(Game_Object_Name, xyz, Timestamp, Description)
如果存在同名对象，调用比较函数，比较当前xyz数组和对象字典中的值, 返回存在SetPosition差值过小,是否建议修改的标志，Ture为存在冗余，False为不必修改
flag_modify = compare_Description(Game_Object_Name, xyz, Timestamp)

运行结果及报错内容

目前运行的结果是理想的，但是时间太长了

我的解答思路和尝试过的方法

目前分析，读取txt每一行的数据，几乎都需要进行一系列的切割比较判断操作，太繁琐，但是每一行的数据又都是需要的，是通过某个容器，或者list之类的来存储一定行数的数据，每个list多线程来进行操作吗？有这个想法，但没试过。

我想要达到的结果

想大幅度减少目前脚本的运行时间，怎么处理大量数据？求解决方法说明确一点哈，万分感谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赵4老师 2022-04-11 17:46
关注
CreateFileMapping

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

golang数据结构与算法学习笔记——进阶篇
2021-06-09 17:43

Generalzy的博客然而，正如其他数据结构和算法一样，没有一种排序算法能够同时满足所有这些条件。在实际应用中，我们需要根据数据的特性来选择合适的排序算法。下图对比了主流排序算法的效率、稳定性、就地性和自适应性等：自适应性...
软件评测师(初版1.0.0)-4.数据结构与算法
2025-01-04 13:53

CindyIsMyBug的博客软件评测师数据结构与算法部分重要知识点
Github 标星 3w+，热榜第一，实现所有算法！
2020-08-12 13:11

DevolperFront的博客点击“开发者技术前线”，选择“星标????”在看|星标|留言, 真爱学会了Python基础知识，想进阶一下，那就来点算法吧！毕竟编程语言只是工具，结构算法才是灵魂。新手如何入门Pyth...
算法题目总结1
2021-09-26 11:58

march of Time的博客连续序列最大和编辑距离合并两个有序数组高楼扔鸡蛋动态规划之输出两个字符串最长公共子序列c++版BFS算法汉诺塔问题链表链表划分尾节点添加元素删除元素将单链表的每k个结点逆序删除倒数第k个节点单链表选择排序·...
算法基础简介
2023-08-07 00:00

零点冰.的博客递归、二分查找、十大排序、BF、RK、BM、贪心算法、分治算法、回溯算法、动态规划
医疗大模型的应用优化指南
2025-07-22 14:03

Debroon的博客阿尔茨海默病新药Aducanumab的疗效”“急性ST段抬高型心肌梗死PCI适应症”“3天前发热，昨天出现皮疹，今天关节痛”“血常规+心电图+胸片异常的综合分析”“患者本次住院与上次住院的病情对比”“CAR-T治疗血液肿瘤...
小知识点系列(二) 本文(8万字) | 解读数据增强 | Mosaic | MixUp | CutOut | CutMix | HSV | Albumentation |
2023-12-25 19:45

小酒馆燃着灯的博客文章目录Mosaic前言原理完整实现代码第二种实现**3.1 方法介绍****3.2 代码展示****加载图片及标签**图像分割**图像合并****处理检测框边界****3.3 完整代码**最后一种通用代码MixUp1.1.1、背景理论1.1.2、算法介绍...
C++程序设计原理与实践（第二版）思考题答案
2021-04-10 22:06

雨泛回忆殇何潜的博客第十三章：向量和数组第十四章：向量、模板和异常第十五章：容器和迭代器第十六章：算法和映射第十七章：一个显示模型第十八章：图形类第十九章：设计图形类第二十章：绘制函数图和数据图第二十一章：图形...
51c深度学习~合集9
2024-12-10 22:15

whaosoft-143的博客由于输入是以图像的形式并行输入的，我们可以用的 2D 卷积来表示二维数据上的并行 MLP。所以在下面这个 MLP 里，我们只用到卷积、激活函数、归一化三种层。按照傅里叶特征论文的官方示例，网络最后要用一个 ...
2023秋招笔试题记录-自用
2023-08-21 17:45

克莱默申克的博客在遍历三个方向的过程中，首先需要判断一下当前节点和对应方向的上一个节点是否步数相同，如果相同，则说明可以一步到达，则没必要再遍历这个方向上的点，跳过此方向；否则则说明改变了前进方向，在当前节点的步数...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日