Sinestro 2022-05-18 00:19 采纳率: 87.5%
浏览 101
已结题

python 如何按照标签分割、合并xml文件

问题遇到的现象和发生背景

先放xml文件截图

img


我希望能够从第二个pb开始,分成两个xml文件,然后我再将两个文件用dom处理完后(dom方法处理文件不是我要问的问题),将其合成一个文件

问题相关代码,请勿粘贴截图

我在分割代码的时候,用了正则和字符串的分割,但是并没有达成我的效果
以下是我写的代码

import re
import traceback


def readXml(filepath):
    try:
        #不要把open放在try中,以防止打开失败,那么就不用关闭了
        file_object = open(filepath,"rb")   
        #file_context是一个string,读取完后,就失去了对test.txt的文件引用
        file_context = file_object.read().decode('utf-8')
        
        file_object.close()
        return file_context
    except:
        traceback.print_exc()
        #print("出现异常,没有文件。")
        return ""


root = readXml("E:\Python\Test\data\86B16D05_AD4C_4C1F_A7B6_76672C3B1A27\C_00000.xml")
# print(root)
strPb = re.split('<pb no=\"000[0-9]{2}\" width=\"1494\" height=\"1000\" />',root)
print(strPb)

运行结果及报错内容

img

我的解答思路和尝试过的方法

我尝试了用字符串读取的方法,但我觉得这样行不通,还有别的方法能够打成吗?

我想要达到的结果

1、我希望能够按照pb处将其分割成多个文件,两个pb之间的内容是一个文件,
2、在分成多个xml之后,我要用dom处理,处理完后我希望能够将它们再合并回去,合并成原来结构的xml
3、能否尽量用dom方法或者字符串正则方法
万分感谢

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2022-05-18 00:58
    关注

    如果只是去除特定的字符串,用re.sub替换掉试试,例如:

    import re
    import xml.etree.ElementTree as ET
    from xml.dom import minidom
    
    s = '''<article><pb pos="1"><ab>vtext</ab><bb no="123">1</bb></pb><pb pos="2"><ab>vtext1</ab><bb no="457">2</bb></pb></article>'''
    rf=re.sub('<pb pos="\d+">','',s)
    rs=re.sub('</pb>','',rf)
    dom = minidom.parseString(rs)
    with open('a.xml', 'w') as f:
        dom.writexml(f, "",'\t',newl="\n",encoding='utf-8')
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 6月2日
  • 已采纳回答 5月25日
  • 创建了问题 5月18日

悬赏问题

  • ¥15 Error in check.length("fill") : 'gpar'成分'fill'的长度不能为零
  • ¥15 python:excel数据写入多个对应word文档
  • ¥60 全一数分解素因子和素数循环节位数
  • ¥15 ffmpeg如何安装到虚拟环境
  • ¥188 寻找能做王者评分提取的
  • ¥15 matlab用simulink求解一个二阶微分方程,要求截图
  • ¥30 乘子法解约束最优化问题的matlab代码文件,最好有matlab代码文件
  • ¥15 写论文,需要数据支撑
  • ¥15 identifier of an instance of 类 was altered from xx to xx错误
  • ¥100 反编译微信小游戏求指导