Sinestro 2022-05-18 00:19 采纳率: 87.5%
浏览 104
已结题

python 如何按照标签分割、合并xml文件

问题遇到的现象和发生背景

先放xml文件截图

img


我希望能够从第二个pb开始,分成两个xml文件,然后我再将两个文件用dom处理完后(dom方法处理文件不是我要问的问题),将其合成一个文件

问题相关代码,请勿粘贴截图

我在分割代码的时候,用了正则和字符串的分割,但是并没有达成我的效果
以下是我写的代码

import re
import traceback


def readXml(filepath):
    try:
        #不要把open放在try中,以防止打开失败,那么就不用关闭了
        file_object = open(filepath,"rb")   
        #file_context是一个string,读取完后,就失去了对test.txt的文件引用
        file_context = file_object.read().decode('utf-8')
        
        file_object.close()
        return file_context
    except:
        traceback.print_exc()
        #print("出现异常,没有文件。")
        return ""


root = readXml("E:\Python\Test\data\86B16D05_AD4C_4C1F_A7B6_76672C3B1A27\C_00000.xml")
# print(root)
strPb = re.split('<pb no=\"000[0-9]{2}\" width=\"1494\" height=\"1000\" />',root)
print(strPb)

运行结果及报错内容

img

我的解答思路和尝试过的方法

我尝试了用字符串读取的方法,但我觉得这样行不通,还有别的方法能够打成吗?

我想要达到的结果

1、我希望能够按照pb处将其分割成多个文件,两个pb之间的内容是一个文件,
2、在分成多个xml之后,我要用dom处理,处理完后我希望能够将它们再合并回去,合并成原来结构的xml
3、能否尽量用dom方法或者字符串正则方法
万分感谢

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2022-05-18 00:58
    关注

    如果只是去除特定的字符串,用re.sub替换掉试试,例如:

    import re
    import xml.etree.ElementTree as ET
    from xml.dom import minidom
    
    s = '''<article><pb pos="1"><ab>vtext</ab><bb no="123">1</bb></pb><pb pos="2"><ab>vtext1</ab><bb no="457">2</bb></pb></article>'''
    rf=re.sub('<pb pos="\d+">','',s)
    rs=re.sub('</pb>','',rf)
    dom = minidom.parseString(rs)
    with open('a.xml', 'w') as f:
        dom.writexml(f, "",'\t',newl="\n",encoding='utf-8')
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 6月2日
  • 已采纳回答 5月25日
  • 创建了问题 5月18日

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵