正则表达式提取纯文本XML节点

I have a LARGE XML file. I'm troubleshooting some things, and I would like to extract specific nodes from the XML file. I don't want a SimpleXML object, I want to make a new file with the raw string matching what I want (posting this on bash/sed/php).

<?xml version="1.0" encoding="UTF-8"?>
<definition></definition>
    <metadata></metadata>
    <nodeToRegex>
        <nodeImightwant>
            <subnode>
                <subsubnode1></subsubnode1>
                <subsubnodeToCheck>stringCheck</subnodeToCheck>
                <subsubnode2></subsubnode2>
            </subnode>
        </nodeImightwant>
        <nodeImightwant></nodeImightwant>
        <nodeImightwant></nodeImightwant>
    </nodeToRegex>

So from this XML file, I want all lines from every node except the nodeToRegex. From nodeToRegex, I only want the nodeImightwant if the stringCheck string equals "aValidString". Can this be done via regex or should I just copy and paste the stuff out of the file? (my regex skills are subpar)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongyu3967 2014-02-13 18:56
关注
Don't parse XML with regexes. There is no reason you can't repackage/rearrange the data using SimpleXML, but trying to do it with a regex is a recipe for lots of headaches and, ultimately, broken code.

See this classic example for why parsing XML/HTML/XHTML with regexes is the road to madness.

If you insist on using a regex, just replace the nodes you don't want, like this:

$myxml = preg_replace('~<nodeToRegex>.*?</nodeToRegex>~', '', $myxml);

Debuggex Demo
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

xJavaFxTool-spring-正则表达式
2025-10-04 01:00

在编程语言和工具中，正则表达式提供了一种灵活的字符串匹配解决方案，广泛应用于搜索引擎、文本处理、数据验证等领域。在JavaFx、Spring Boot、Cron、Hosts、PDF、Email和Zookeeper的语境下讨论正则表达式，可能...
现代 ABAP 编程语言中的正则表达式
2021-10-04 19:19

汪子熙的博客在这篇博文中，我想分享现代 ABAP 中正则表达式... 因此，从现在开始，POSIX 语法中的正则表达式已过时，然后使用这种正则表达式语法会导致语法检查警告。虽然这可以被 pragma ##regex_posix 隐藏，但强烈建议迁移到 A
正则表达式 与 XPath 语法领域细解，初学阶段的你，该怎么学？
2021-08-21 16:11

梦想橡皮擦的博客 正则表达式独立于任何编程语言，也表示它可以和任意编程语言结合；每个人写出的表达式不一致，即“每题”的答案都不唯一；正则有语法，有修饰符，有元字符，有运算符的优先级，初学阶段概念有点庞杂，无从下手。 ...
Python 中 BeautifulSoup 的正则表达式结合使用
2025-07-11 03:53

AI Python 编程的博客本文旨在全面介绍BeautifulSoup库与正则表达式在Python中的结合使用方法，帮助开发者更高效地从...：一个Python库，用于从HTML和XML文档中提取数据正则表达式(Regex)：一种强大的文本模式匹配和处理的工具HTML解析。
XML与正则表达式工具：数据处理的有效搭档
2024-10-31 16:19

Mn孟的博客结合XML的结构特性和正则表达式的模式匹配能力，XML正则表达式工具为开发者和数据处理人员提供了高效查找、验证和提取XML数据的能力。本工具通过友好的用户界面、可导入导出的XML文件、以及丰富的示例和模板，大幅...
VB.NET编写的正则表达式生成测试源码
2017-07-20 08:30

VB.NET是微软.NET框架下的编程语言，它支持正则表达式库，使得开发者能方便地在VB.NET项目中应用正则表达式。本文将深入探讨VB.NET中的正则表达式以及如何通过源码实现一个正则表达式生成与测试的工具。一、VB.NET...
Python大数据分析&人工智能教程 - 页面解析Xpath和正则表达式（详解与案例）
2024-12-11 11:15

AI_DL_CODE的博客在本章节中，我们深入探讨了Python在大数据分析与人工智能领域中的应用，特别是页面解析技术的...通过对这两种技术的详细讲解和实例演示，我们展示了如何有效地从HTML文档中提取数据，并利用正则表达式进行文本处理。
32、XML处理与正则表达式全解析
2025-12-01 00:19

ice55的博客本文深入解析了XML处理与正则表达式的应用，涵盖mwXmlReader类的使用、构造函数注意事项、XML到对象树的实例化方法，以及REALbasic中基于PCRE的正则表达式语法和高级技巧。通过具体代码示例展示了如何解析Atom/RSS...
正则表达式+xml
2008-05-19 15:29

结合提供的`RegexTool`文件，这可能是一款集成了正则表达式验证和XML操作功能的工具，用户可以利用它来测试正则表达式，或者处理XML文档，比如验证XML的结构、提取XML数据等。这样的工具对于开发者来说非常实用，...
Python数据提取与解析教程：正则表达式、BeautifulSoup和XPath的深度解析
2024-08-18 00:15

编程的爱好者的博客通过详细讲解HTML基本结构、数据提取方法、正则表达式的基本语法、re库的使用，以及BeautifulSoup和XPath的安装、使用和实例，本文将帮助读者掌握使用这些技术进行网页数据提取和解析的关键技能。本文详细介绍了...
没有解决我的问题, 去提问

正则表达式提取纯文本XML节点

1条回答 默认 最新

1条回答默认最新