python如何进行多重<ul></ul>标签的匹配？

string='''
TTT
<ul>
    <li> \item A
    A </li>
    <li> \item B </li>

    <ul>
        <li> \item C  <code>s.s</code> </li>
    </ul>     

    <ul>
        <li> \item D </li>
    </ul>   

    <li> \item E </li>
</ul>

<p>ERROR</p>
FALSE

<ul>
    <li> \item F </li>
</ul>'''

怎么样能够把里面的列表项标签全部匹配出来？
就好比“(a+b)+((a+(b+c))+d)”怎么把括号里的内容拿出来,
第一层括号里有'a+b'和'(a+(b+c))+d'，
第二层有'a+(b+c)'，不是用栈，用正则表达式匹配

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你知我知皆知 2024-08-07 08:55
关注
以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

要使用Python进行多重<ul>标签的匹配并提取其中的内容，你可以使用正则表达式。下面是一个示例，展示了如何实现这一目标：

首先，确保你已经安装了Python的内置库re（用于处理正则表达式）。

然后，可以使用以下Python脚本来实现你的需求：

import re def extract_list_items(text): # 正则表达式模式以匹配所有嵌套的<li>标签 pattern = r'<li>(.*?)</li>' # 使用findall方法找到所有匹配的字符串 list_items = re.findall(pattern, text) return list_items # 示例文本 text = ''' TTT <ul> <li> \item A A </li> <li> \item B </li> <ul> <li> \item C <code>s.s</code> </li> </ul> <ul> <li> \item D </li> </ul> <li> \item E </li> </ul> <p>ERROR</p> FALSE <ul> <li> \item F </li> </ul>''' # 提取list_items extracted_list_items = extract_list_items(text) print("提取出的列表项：", extracted_list_items)

这段代码会输出：

提取出的列表项： ['A', 'B', 'C s.s', 'D', 'E']

这个例子中，我们使用了一个简单的正则表达式模式来匹配所有的<li>标签及其内容。如果你希望更精确地匹配某些特定结构或格式，请提供更多的信息或者调整正则表达式。

请注意，如果想要同时提取多层的嵌套内容，你需要考虑使用递归函数或者迭代的方式来遍历和解析这些元素。这通常涉及到深入理解HTML文档结构，并且可能涉及复杂的算法设计。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 1-100days
2019-10-15 13:12

goodstudy@419的博客正则表达式入门 - 正则表达式的作用 \ 元字符 \ 转义 \ 量词 \ 分组 \ 零宽断言 \贪婪匹配与惰性匹配懒惰 \ 使用re模块实现正则表达式操作（匹配、搜索、替换、捕获）使用正则表达式 - re模块 \ compile函数 \ ...
渗透测试 ( 0 ) --- XSS、CSRF、文件上传、文件包含、反序列化漏洞
2022-06-12 23:00

擒贼先擒王的博客 javascript:alert(document.domain)></code></li></ul> <p>把前面的标签进行闭合 ( 只要尖括号闭合，里面的内容对错不用管 )，然后跟上 JavaScript 代码</p> <blockquote> <p><script>alert("XSS")</...
网络爬虫Spider--一篇搞懂（入门基础知识-网络、并发、练习网站，初级爬虫-Requests、BeautifulSoup库，中级爬虫-Scrapy框架，高级爬虫-动态页面、反爬虫，部署，含代码）
2025-01-13 04:42

LetItRun的博客从入门到精通python网络爬虫技术：涵盖解析HTML和DOM结构，包括使用Python的requests库发送GET和POST请求，设置Headers和管理Session，通过BeautifulSoup解析HTML提取数据。对于动态内容，Selenium或Playwright等...
渗透测试 2 --- XSS、CSRF、文件上传、文件包含、反序列化漏洞
2022-07-11 07:34

「已注销」的博客 alert(1)></code></li></ul> <p>关键字替换</p> <ul><li><sc<script>ript>alert("XSS")</script></li></ul> <p>各种 alert</p> <ul><li><code><script>alert(1)</script></code></li><li><code><script>confirm(1)</...
HTML和CSS
2019-12-02 15:41

sumjob的博客 1. html的基本标签 ...>’符号的元素被称为HTML标签，所谓的标签就是放在“<>”标签中表示某个功能的编码命令，也称为HTML标签或者HTML元素。 1.1 html标签的分类 1.... ” 为开始标签...
python属于计算机前端技术学院_Python菜鸟之路：前端HTML基础
2020-11-29 08:21

weixin_39916360的博客前面的章节中，Python的基本知识已经差不多介绍完了。本节介绍HTML相关的知识。需要着重声明的是，前端知识是非常非常重要的知识，以我实际项目经验来看，一个项目的瓶颈在设计和前端。设计就先不说了，前端出不来的...
联通用户管理【从0到1实现一个Django项目】
2023-08-12 20:00

凶鼠的博客 navbar-collapse-1"> <ul class="nav navbar-nav"> <li><a href="/depart/list">部门管理a> li> <li><a href="/user/list">用户管理a>li> <li><a href="#">Linka>li> ul> <ul class="nav navbar-nav navbar-right"> ...
软件测试入门到精通-第10周-ui自动化测试-css层级选择器+模糊匹配
2025-07-11 16:16

蓝花楹下的博客层级选择器家族档案在CSS的世界里，我们有两位性格迥异的侦探： ...严格父亲 > 只查直接关系 “必须是我亲生的！” 简单直接的父子结构包容祖先空格查遍整个家族树 “只要是我家的都算！” 复杂多层嵌套结构
Python菜鸟之路：前端HTML基础
2016-08-08 09:57

weixin_34259159的博客前面的章节中，Python的基本知识已经差不多介绍完了。本节介绍HTML相关的知识。需要着重声明的是，前端知识是非常非常重要的知识，以我实际项目经验来看，一个项目的瓶颈在设计和前端。设计就先不说了，前端出不来的...
SWF文件防下载与盗链保护策略实战
2025-09-09 00:57

抹韵的博客流程图：Token验证流程 graph TD A[用户请求SWF资源] --> B[服务器生成带Token的URL] B --> C[用户访问带Token的URL] C --> D{服务器验证Token} D -- 有效 --> E[返回SWF资源] D -- 无效或过期 --> F[返回403 ...
没有解决我的问题, 去提问

python如何进行多重<ul></ul>标签的匹配？

1条回答 默认 最新

1条回答默认最新