Sinestro 2022-05-18 00:19 采纳率: 87.5%
浏览 105
已结题

python 如何按照标签分割、合并xml文件

问题遇到的现象和发生背景

先放xml文件截图

img


我希望能够从第二个pb开始,分成两个xml文件,然后我再将两个文件用dom处理完后(dom方法处理文件不是我要问的问题),将其合成一个文件

问题相关代码,请勿粘贴截图

我在分割代码的时候,用了正则和字符串的分割,但是并没有达成我的效果
以下是我写的代码

import re
import traceback


def readXml(filepath):
    try:
        #不要把open放在try中,以防止打开失败,那么就不用关闭了
        file_object = open(filepath,"rb")   
        #file_context是一个string,读取完后,就失去了对test.txt的文件引用
        file_context = file_object.read().decode('utf-8')
        
        file_object.close()
        return file_context
    except:
        traceback.print_exc()
        #print("出现异常,没有文件。")
        return ""


root = readXml("E:\Python\Test\data\86B16D05_AD4C_4C1F_A7B6_76672C3B1A27\C_00000.xml")
# print(root)
strPb = re.split('<pb no=\"000[0-9]{2}\" width=\"1494\" height=\"1000\" />',root)
print(strPb)

运行结果及报错内容

img

我的解答思路和尝试过的方法

我尝试了用字符串读取的方法,但我觉得这样行不通,还有别的方法能够打成吗?

我想要达到的结果

1、我希望能够按照pb处将其分割成多个文件,两个pb之间的内容是一个文件,
2、在分成多个xml之后,我要用dom处理,处理完后我希望能够将它们再合并回去,合并成原来结构的xml
3、能否尽量用dom方法或者字符串正则方法
万分感谢

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2022-05-18 00:58
    关注

    如果只是去除特定的字符串,用re.sub替换掉试试,例如:

    import re
    import xml.etree.ElementTree as ET
    from xml.dom import minidom
    
    s = '''<article><pb pos="1"><ab>vtext</ab><bb no="123">1</bb></pb><pb pos="2"><ab>vtext1</ab><bb no="457">2</bb></pb></article>'''
    rf=re.sub('<pb pos="\d+">','',s)
    rs=re.sub('</pb>','',rf)
    dom = minidom.parseString(rs)
    with open('a.xml', 'w') as f:
        dom.writexml(f, "",'\t',newl="\n",encoding='utf-8')
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 6月2日
  • 已采纳回答 5月25日
  • 创建了问题 5月18日

悬赏问题

  • ¥15 防火墙的混合模式配置
  • ¥15 Ubuntu不小心注销了要怎么恢复啊
  • ¥15 win10电脑安装完plcsim advanced4.0运行时为什么会提示找不到虚拟网卡
  • ¥15 安装powerbuilder10卡在安装程序正在运行这个页面 没有下一步任何指令
  • ¥15 关于mpi的问题:请问遇到这种情况需要怎么解决,出现这个问题后电脑不能进行mpi多核运行只能进行单核运行
  • ¥50 微信聊天记录备份到电脑提示成功了,但还是没同步到电脑微信
  • ¥15 python怎么在已有视频文件后添加新帧
  • ¥20 虚幻UE引擎如何让多个同一个蓝图的NPC执行一样的动画,
  • ¥15 fluent里模拟降膜反应的UDF编写
  • ¥15 MYSQL 多表拼接link