正则表达式提取纯文本XML节点

I have a LARGE XML file. I'm troubleshooting some things, and I would like to extract specific nodes from the XML file. I don't want a SimpleXML object, I want to make a new file with the raw string matching what I want (posting this on bash/sed/php).

<?xml version="1.0" encoding="UTF-8"?>
<definition></definition>
    <metadata></metadata>
    <nodeToRegex>
        <nodeImightwant>
            <subnode>
                <subsubnode1></subsubnode1>
                <subsubnodeToCheck>stringCheck</subnodeToCheck>
                <subsubnode2></subsubnode2>
            </subnode>
        </nodeImightwant>
        <nodeImightwant></nodeImightwant>
        <nodeImightwant></nodeImightwant>
    </nodeToRegex>

So from this XML file, I want all lines from every node except the nodeToRegex. From nodeToRegex, I only want the nodeImightwant if the stringCheck string equals "aValidString". Can this be done via regex or should I just copy and paste the stuff out of the file? (my regex skills are subpar)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongyu3967 2014-02-13 18:56
关注
Don't parse XML with regexes. There is no reason you can't repackage/rearrange the data using SimpleXML, but trying to do it with a regex is a recipe for lots of headaches and, ultimately, broken code.

See this classic example for why parsing XML/HTML/XHTML with regexes is the road to madness.

If you insist on using a regex, just replace the nodes you don't want, like this:

$myxml = preg_replace('~<nodeToRegex>.*?</nodeToRegex>~', '', $myxml);

Debuggex Demo
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
使用正则表达式提取文本数据，正则表达式如何写 python 有问必答正则表达式爬虫
2021-10-25 18:26

回答 2 已采纳 regex = r"('gender':\s*{[^}]+})|('glasses':\s*{[^}]+})|('emotion':.+.jpg')" 不清楚是否你每个文件都是类似的，如果不行，再
C#正则表达式查找非纯数字的字符 c# 正则表达式
2022-04-27 01:53

回答 6 已采纳 (([a-zA-Z_])([a-zA-Z0-9_])+)|(([0-9])([a-zA-Z_])+)
正则表达式 与 XPath 语法领域细解，初学阶段的你，该怎么学？
2021-08-21 16:11

梦想橡皮擦的博客 正则表达式独立于任何编程语言，也表示它可以和任意编程语言结合；每个人写出的表达式不一致，即“每题”的答案都不唯一；正则有语法，有修饰符，有元字符，有运算符的优先级，初学阶段概念有点庞杂，无从下手。 ...
用python正则表达式提取TXT文本的特定符号中间的字符串并保存到CSV python 有问必答
2021-04-12 16:21

回答 2 已采纳 import csv import re with open("1.txt","r",encoding="utf-8") as fileObj: data = fileObj.read()
C#正则表达式提取字符串 asp.net c# 正则表达式
2020-04-20 15:33

回答 3 已采纳 ``` (?<=$)\w+ \w+(?=$) ```
如何使用正则表达式提取特定字符串后面的数字正则表达式
2018-10-26 07:16

回答 9 已采纳你用的什么语言，比如java 你的代码匹配之后，group(0)是 pages:13 group(1)是13
现代 ABAP 编程语言中的正则表达式
2021-10-04 19:19

汪子熙的博客在这篇博文中，我想分享现代 ABAP 中正则表达式... 因此，从现在开始，POSIX 语法中的正则表达式已过时，然后使用这种正则表达式语法会导致语法检查警告。虽然这可以被 pragma ##regex_posix 隐藏，但强烈建议迁移到 A
python正则表达式提取文本的一些小疑问 python 正则表达式
2023-03-26 20:43

回答 2 已采纳使用右断言，可以使使一个字符参与多次匹配例如： import re a = 'aaubb axb acb' b = re.finditer('(?=(a.*?b))', a) for m in
正则表达式提取文本信息 java 自然语言处理
2022-07-26 11:31

回答 2 已采纳 jdbc:mysql://[.:\w]+/(.*?)(\?.*)
如何用正则表达式把文本提取出来 css python 正则表达式
2019-05-08 20:58

回答 2 已采纳 `re.findall('(.*?)',searchstr,re.DOTALL)`
正则表达式怎么提取可能出现的字符但不包括这个字符的内容正则表达式
2022-03-08 18:56

回答 2 已采纳 (?<=(x-main=")|(x-main=))[^"].*?(?=("|$))
Java高级API-XML，JSON和正则表达式
2021-02-22 18:41

神之子zp的博客 Java高级API-XML，JSON和正则表达式XMLXML简介XML约束XML解析DOM解析DOM常用接口JSON什么是JSONJSON语法Java处理JSON正则表达式概述单个符号快捷符号常用正则表达式元字符及其在正则表达式上下文中的行为：汇总整理:...
python网络爬虫：使用正则表达式解析网页
2021-05-04 12:50

18.5AU_的博客使用正则表达式解析网页 Python正则表达式 正则表达式是一种可以用于模式匹配和替换的工具，可以让用户通过使用一系列的特殊字符构建匹配模式，然后把匹配模式与待比较字符串或文件进行比较，根据比较对象中是否包含...
没有解决我的问题, 去提问

悬赏问题

¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 lammps拉伸应力应变曲线分析
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题

正则表达式提取纯文本XML节点

1条回答 默认 最新

悬赏问题

1条回答默认最新