python读取多文件搜索关键字，速度优化问题

现在的方式是传统的 with open file:

readlines 然后每行用__contains__(关键字)

大约20多个关键字，搜索10w个文件，需要的时间是17分钟。

佬们有没有优化的方式，意见建议都行哈

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

14条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
不会长胖的斜杠后端领域新星创作者 2022-04-18 11:35
关注
获得1.00元问题酬金

主要耗费时间是IO上，你看是否能把文件融合，达到减少IO的效果，如果不能减少数量的话，总体速度还是不够快
如果不能减少数量，建议减少文件存储方式
1.存储数据库
2.使用其他格式，例如：假如是数组，改用为npy文件存储，速度会快很多
3.如果是频繁读取，例如CS模式，可以将采取数据服务器一直将文件内容存在内存，就避免了IO操作

其次，匹配关键字用的是啥函数？可以试试map，应该也会提速

望采纳~

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么使用Python读取JSON文件时，搜索指定关键字Python会报KeyError的错，但JSON文件中确实有对应的关键词？ json python 有问必答
2022-01-07 13:07

回答 1 已采纳读取成字典后这样取值： dic={ "type": "FeatureCollection", "features": [ { "type": "
如何利用python提取含有关键字的行 python
2021-10-06 18:21

回答 1 已采纳 readlines读取文件后得到一个数组遍历数组，可以用for遍历到空行就continue匹配关键字用find函数你中间说的匹配结果是不是错了mm10哪儿来的？
Python提取Excel特定关键字的句子并进行语调分析 python 机器学习自然语言处理
2023-04-21 18:11

回答 3 已采纳 DataFrame没有append方法.用添加行的方式可以添加 matched_sentences.loc[len(matched_sentences)] = [df.iloc[i,0],df.ilo
python实现按关键字筛选日志文件
2020-09-18 05:46

今天小编大家分享一篇python实现按关键字筛选日志文件方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
python搜索文本文件并分析导出内容结果出错 python tcp/ip windows
2023-02-21 17:32

回答 2 已采纳由于没人回答，经不懈努力，终于成功解决了以上问题，虽然还很不成熟，希望能抛砖引玉。主要改进是：放弃了字典存储模式，用理简单的列表存储结果，以简化逻辑。本人是Python的初学者，以学为目的，主要用于解
python如何统计csv/Excel文件里面的某一列数据的词频？ python
2021-12-17 21:35

回答 3 已采纳 https://pandas.pydata.org/docs/reference/api/pandas.Series.str.count.html?highlight=count#pandas.Ser
python如何删除excel某列中不含某些值所在的行 python
2022-03-16 11:18

回答 1 已采纳简单的方法就是，适合数据不多的情况用openpyxl库读入 excel2 到列表从尾部遍历excel1 ，发现包含关键字，用 delete_rows 方法删除
python读取txt文本并按照关键字生成相应excel表
2021-01-20 03:31

初学python，想利用编程读取txt文本并生成excel，记录一下。 txt数据源截取如下（将近2W行数据）： 00:00:06 RADV Voice Signal:-63dBm 00:00:09 RADD DATA Signal:-65dBm 00:00:12 RADV Voice Signal:-61dBm 00:00:...
python 如何按照word顺序遍历每一段落（包括段落的自动编号）和每一个表格 python 有问必答
2022-02-22 11:49

回答 3 已采纳使用docx读取段落自动编号比较麻烦，可以用另一个库docx2python，读取成列表,分级编号无论是数字还是字母都能读取出来 from docx2python import docx2python
python数据处理 python
2022-09-20 15:20

回答 3 已采纳 with open('1.csv', 'r') as f: # 读取1 for line in f.readlines(): passwd = line.replace('
求教使用python怎样对本地的未读邮件进行分析。 python 微信小程序
2019-03-07 11:51

回答 1 已采纳如果你本地邮件是用outlook存放的话，可以用mapi接口读取，包括未读的邮件 https://www.jianshu.com/p/58745e22eacb
python脚本多文件搜索查询字符串关键字
2022-01-09 21:34

西凉的悲伤的博客 python脚本多文件中搜索查询字符串关键字
python 运行这段代码进入循环后退出 python 有问必答
2022-03-12 10:37

回答 3 已采纳你的意思是函数执行后没有打印输出还是?TranslateFile函数需要读取.\dst_dir目录下的文件读取,读取的PDF类文件,你的目录下放置文件了吗,还是路径不对
python读取.txt文件中某些关键字后面的内容并根据该数据画图
2023-09-07 18:58

爱不持久的博客感谢一下悦姐帮忙 import re #先把文件读进来，用read读入的是字符串，readlines是list with open('resok.txt') as f: txt = f.read() dataset = r'5low:.*|5mix:.*|5normal:.*' para = r'MAE: (.{6})'#意思是MAE： ...
python 读取stl文件_python读取stlPython中nonlocal关键字
2020-12-10 10:52

weixin_39791653的博客在这篇文章中介绍了“Python的闭包与nonlocal”的用法，因为nonlocal是在Python3.0中新增的关键字，python2.x不提供支持，文中提出在Python2.x解决嵌套函数引用外部变量的方法只有使用global 关键字定义全局变量，另...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金20元 4月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月18日

悬赏问题

¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

python读取多文件搜索关键字，速度优化问题

14条回答 默认 最新

问题事件

悬赏问题

14条回答默认最新