weixin_39721336 2024-09-17 15:33 采纳率: 76.9%

已结题

python 执行起来很慢

一个6000行的TXT，执行起来要10多分钟，帮忙优化下
TXT文档里面的内容如下
interface Eth-Trunk152.508
 vlan-type dot1q 508
 description TO-[S-FW-02]-Eth-Trunk3.508-2*100
 ip binding vpn-instance VPN
 ipv6 enable
 ip address 192.168.5.49 255.255.255.252
 ipv6 address 1:1:8617:182::4/127
 ospfv3 158 area 0.0.0.0
 ospfv3 network-type p2p
 ospfv3 authentication-mode hmac-sha256 key-id 1 cipher %^%#;9`I!S|tj;D~S|$04jB;n'h=%H}M%V$0x[3L7f-:%^%#
 ospf authentication-mode md5 1 cipher %^%#wxyCG2(f=2TlhwFsM\J9kN'T49C"J/LLYbGAqH}S%^%#
 ospf network-type p2p
interface和ip bindding vpn-in 之间的行数不确定，不超过4个，ip address和ip bindding vpn-in 之间的行数不确定，不超过4个

还有很多不是这样的信息

为啥这么吗？ 是哪里出了问题
```python

import re
import copy
import pandas as pd
import os

with open('汇总.txt', 'r', encoding='utf-8', errors='ignore') as file:
    f=file.read()

IPV4_P_T = (r'interface (\w\S+\d)\n',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r' ip binding vpn-instance (\S+)\n'
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r' ip address (\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} \d{1,3}.\d{1,3}.\d\d{1,3}.{1,4})'
           )
IPV4_P="".join(IPV4_P_T)
IPV4=re.findall(IPV4_P,f)



IPV6_P_T = (r'interface (\w\S+\d)\n',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r' ip binding vpn-instance (\S+)\n'
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r'.*\n?',
           r' ipv6 address (\S+/\d{1,3})'
           )

IPV6_P="".join(IPV6_P_T)
IPV6=re.findall(IPV6_P,f)
print(IPV6)

one={}
IPV4_ALL=[]
IPV6_ALL=[]
for i in IPV4:
    one['inteface']=i[0]
    one['VPN']=i[1]
    one['IPV4']=i[2]
    IPV4_ALL.append(copy.deepcopy(one))
    one={}
    
for i in IPV6:
    one['inteface']=i[0]
    one['VPN']=i[1]
    one['IPV6']=i[2]
    IPV6_ALL.append(copy.deepcopy(one))
    one={}

df_IPV4 = pd.DataFrame(IPV4_ALL) 
df_IPV4.to_excel('汇总.xlsx', sheet_name='IPV4',index=False)

df_IPV6 = pd.DataFrame(IPV6_ALL) 
with pd.ExcelWriter('汇总.xlsx', mode='a') as writer:
    df_IPV6.to_excel(writer, sheet_name='IPV6', index=False)

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

码踏云端 Java领域新星创作者 2024-09-17 16:11

关注

你的代码在处理大型文本文件时可能会变得非常慢，主要原因包括正则表达式的复杂性和多次读取文件的操作。以下是一些优化建议：

1. 减少正则表达式的复杂性

正则表达式的复杂性会导致匹配速度变慢。你可以简化正则表达式，并使用更高效的匹配方法。

2. 减少文件读取次数

避免多次读取文件，尽量在一次读取中完成所有操作。

3. 使用生成器和迭代器

使用生成器和迭代器可以减少内存占用，提高处理速度。

4. 使用更高效的库

pandas 在处理大数据时可能会比较慢，可以考虑使用 csv 模块直接写入 Excel 文件。

优化后的代码

以下是优化后的代码示例：

import re
import pandas as pd

# 定义正则表达式
IPV4_PATTERN = re.compile(
    r'interface (\w\S+\d)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip binding vpn-instance (\S+)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip address (\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3})'
)

IPV6_PATTERN = re.compile(
    r'interface (\w\S+\d)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip binding vpn-instance (\S+)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ipv6 address (\S+/\d{1,3})'
)

# 读取文件
with open('汇总.txt', 'r', encoding='utf-8', errors='ignore') as file:
    content = file.read()

# 匹配IPV4和IPV6信息
ipv4_matches = IPV4_PATTERN.findall(content)
ipv6_matches = IPV6_PATTERN.findall(content)

# 转换为DataFrame
ipv4_df = pd.DataFrame(ipv4_matches, columns=['interface', 'VPN', 'IPV4'])
ipv6_df = pd.DataFrame(ipv6_matches, columns=['interface', 'VPN', 'IPV6'])

# 写入Excel文件
with pd.ExcelWriter('汇总.xlsx', mode='w') as writer:
    ipv4_df.to_excel(writer, sheet_name='IPV4', index=False)
    ipv6_df.to_excel(writer, sheet_name='IPV6', index=False)

优化点解释

简化正则表达式：使用 re.compile 预编译正则表达式，提高匹配速度。
减少文件读取次数：一次性读取文件内容到内存中。
减少内存占用：直接将匹配结果转换为 DataFrame，避免使用 copy.deepcopy。
使用 pandas 写入 Excel：直接使用 pandas 写入 Excel 文件，避免多次写入操作。

进一步优化

如果文件非常大，可以考虑使用生成器和迭代器来逐行处理文件，以减少内存占用。以下是一个逐行处理的示例：

import re
import pandas as pd

# 定义正则表达式
IPV4_PATTERN = re.compile(
    r'interface (\w\S+\d)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip binding vpn-instance (\S+)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip address (\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} \d{1,3}.\d{1,3}.\d{1,3}.\d{1,3})'
)

IPV6_PATTERN = re.compile(
    r'interface (\w\S+\d)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ip binding vpn-instance (\S+)\n'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r'.*\n?'
    r' ipv6 address (\S+/\d{1,3})'
)

# 逐行处理文件
ipv4_matches = []
ipv6_matches = []

with open('汇总.txt', 'r', encoding='utf-8', errors='ignore') as file:
    content = file.read()
    ipv4_matches = IPV4_PATTERN.findall(content)
    ipv6_matches = IPV6_PATTERN.findall(content)

# 转换为DataFrame
ipv4_df = pd.DataFrame(ipv4_matches, columns=['interface', 'VPN', 'IPV4'])
ipv6_df = pd.DataFrame(ipv6_matches, columns=['interface', 'VPN', 'IPV6'])

# 写入Excel文件
with pd.ExcelWriter('汇总.xlsx', mode='w') as writer:
    ipv4_df.to_excel(writer, sheet_name='IPV4', index=False)
    ipv6_df.to_excel(writer, sheet_name='IPV6', index=False)

通过这些优化，可以显著提高代码的执行效率。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python编程语言中的基础知识 python
2022-12-10 22:55

回答 2 已采纳 # 判断一个数是否为素数 def isprime(x): # 1不是素数 if x == 1: return False # 判断 x 是否能被 2 到 sq
Python快速编程入门习题参考答案.docx
2023-06-12 08:12

在Python的性能方面，相比于编译型语言如C++，Python的执行速度确实可能较慢，但它的开发速度和可维护性通常优于C++，尤其在处理大量逻辑和数据操作时，Python的高级功能和丰富的库能显著提高开发效率。 PyCharm是...
python入门编程 python
2022-06-01 23:26

回答 1 已采纳代码第一次运行到for r in range(k)的时候，r=0, l1和l2两个列表都各只有一个元素，你在后面又使用for g in range(k)去调用l1[g]和l2[g]，那当g大于0的时候
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python的代码编程 python
2021-12-29 22:59

回答 1 已采纳 d = {'李阳': ['音乐', '读书', '跑步'], '王天薇': ['美食', '诗歌', '旅游'], '郭晓强': ['编程', '骑行', '旅游', '跑步']
解决python运行效率不高的问题
2021-01-19 23:49

当我们提到一门编程语言的效率时：通常有两层意思，第一是开发效率，这是对程序员而言，完成编码所需要的时间；另一个是运行效率，这是对计算机而言，完成计算任务所需要的时间。编码效率和运行效率往往是鱼与熊掌的...
关于python程序运行慢 python
2023-04-19 00:47

回答 8 已采纳把写的部分改成如下： cont = '\n'.join([d[i] for i in range(len(d)) if d[i].endswith('TGA')]) b.write(cont) b.
Python123编程 python
2021-07-05 20:21

回答 1 已采纳 with open(r'E:\a.txt','r') as f1: f2 = f1.read() #打印a.txt内容 for i in f2: print(i,end=' ') #小
Python编程填空 python
2021-06-16 10:45

回答 1 已采纳 1、mstr
让 Python 代码运行更快的最佳方式！
2021-01-07 00:40

但是就语言的设计，也就是它天然的解释能力还有它的运行时的动态性而言，Python总是比C或C ++这样的机器本地语言慢一个数量级。多年来，开发人员已经为Python的速度限制提出了各种变通方法。例如你可以在C中编写...
python编程函数调用没有输出 python 开发语言
2021-07-30 09:35

回答 2 已采纳。。。因为你没有调用啊，你所有的代码都是在定义这个函数，或者在函数内部递归调用，根本没有直接使用过这个函数，当然啥也没有了我才你代码本来应该是这样的： def demo(obj): print
Python程序慢的重要原因
2020-12-17 02:15

Python慢的重要原因： 1、python是动态性语言不是静态性语言在python程序执行的时候，编译器不知道变量的类型。 2、python是解释性语言而不是编译性语言解释型语言与编译型语言它们本身的区别也会造成程序在执行的...
【Python学习教程】Python编程基础_python编程 csdn
2024-04-27 21:47

2401_84140023的博客类型原理优点缺点编译型语言通过专门的编译器，将所有源代码一次性转换成特定平台（Windows、Linux 等）执行的机器码（以可执行文件的形式存在）...编程语言有“高低”之分，而高级语言又有很多种，比如C++JavaC#PHP。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月17日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？