beautifulsoup如何提取HTML文件中两个相同标签之间的文本？

（补充一下我准备做的是类似批量查词的脚本，已经实现了文本提取、去重、查找并抛出无法查询的单词，现在还剩最后一步就是把单词块对应的HTML提取出来，提取之后的TXT转HTML再转docx文件的脚本也写好了。
本来有两种方案，
一是以

<hr>

为标记，二是以

<h3>

为标记。考虑到提取h3方便一些就有了如下方案）

HTML内容如下

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>
</title>
</head>
<body bottommargin="0" leftmargin="5" rightmargin="5" topmargin="0">
<center>
<hr/>
<font size="+3">Oxford Advanced Learner's Dictionary 7th fixed</font><hr width="50%" />
<a>Lookup a word</a>
<br/>
<hr/>
</center>
<hr/>
<h3>-ability</h3>
(in nouns 构成名词) ：<br/>
<p align="left"></p>
<blockquote>
<i>◊ capability 能力</i>
</blockquote>
<p align="left"></p>
<blockquote>
<i>◊ responsibility 责任</i>
</blockquote>
<hr/>
<h3>-ibility</h3>
(in nouns 构成名词) ：<br/>
<p align="left"></p>
<blockquote>
<i>◊ capability 能力</i>
</blockquote>
<p align="left"></p>
<blockquote>
<i>◊ responsibility 责任</i>
</blockquote>
<hr/>
<span id="filepos0000000816"></span>
<h3>-able</h3>
□ <b><i><font color="#400000">suffix</font></i></b> (in adjectives 构成形容词)<br/>
<b>『1』</b> that can or must be 可…的；能…的；应…的 ：
<br/>
<p align="left"></p>
<blockquote>
<i>◊ calculable 能计算的</i>
</blockquote>
<p align="left"></p>
<blockquote>
<i>◊ taxable 应纳税的</i>
</blockquote>
<b>『2』</b> having the quality of 具有…性质的 ：
<br/>
<p align="left"></p>
<blockquote>
<i>◊ fashionable 时髦</i>
</blockquote>
<p align="left"></p>
<blockquote>
<i>◊ comfortable 舒适</i>
</blockquote>
<p align="left"></p>
<blockquote>
<i>◊ changeable 易变</i>
</blockquote>
→<b><font color="#1C092B">-ability, -ibility</font></b>
<br/>
<hr/>

已经定位了单个<h3>内的内容如 <h3>-ability</h3>，还需要截取该内容之后直到下一个<h3>出现之前的内容，然后把这一段复制下来贴到另一个TXT中

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
herosunly 优质创作者: python技术领域 2022-07-29 07:34
关注
建议还是使用正则表达式提取会节省内存，主要是由于文件过大，如果使用lxml、bs，会构建完整的数据结构，就会造成内存不足。

假设文件是data.html，使用compile对象和re.finditer能够节省内存，具体代码如下，PS：如果只想要标签内的内容，则把m.group(0)改成m.group(1)即可，别的标签名什么的自行进行修改即可：

import re with open('data.html') as f: content = f.read() pattern = re.compile(r'<h3>-ability</h3>(.*?)<h3>-ibility</h3>', flags=re.DOTALL) for m in re.finditer(pattern, content): print(m.group(0))

结果如下所示：
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python网络编程学习笔记(七)：HTML和XHTML解析(HTMLParser、BeautifulSoup)
2020-12-24 00:19

下面我们将详细展开这两个知识点。首先，`HTMLParser`是Python标准库提供的一种低级别的HTML解析器，它允许用户自定义处理HTML标签和数据的方式。在第一个例子中，我们创建了一个名为`TitleParser`的类，该类继承...
Python爬虫入门8：BeautifulSoup获取html标签相关属性
2021-01-30 10:17

LaoYuanPython的博客本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。
Python爬虫教程：HTML解析与数据提取——使用BeautifulSoup与lxml对HTML进行解析
2025-04-13 23:02

Python爬虫项目的博客我们将通过具体的例子，介绍HTML解析的基本原理，如何选择合适的库进行解析，如何处理HTML中的不同元素，如何提取链接、图片、表格、文本等数据，以及如何进行数据清洗和存储。此外，我们还讨论了如何处理动态加载的...
Python 爬虫实战：BeautifulSoup 解析 HTML，精准提取网页内容
2025-10-17 23:44

python 爬虫工程师的博客本文系统介绍了BeautifulSoup库在HTML解析中的应用，包括安装配置、解析器选择、节点定位方法和CSS选择器使用技巧。通过豆瓣图书排行榜爬取实战，演示了如何从网页中精准提取图书信息，并提供了完整的代码实现和常见...
Python下利用BeautifulSoup解析HTML的实现
2020-09-18 02:48

在Python编程中，BeautifulSoup库是一个非常强大的工具，专门用于解析HTML和XML文档。它能够将复杂的网页结构转化为易于操作的Python对象，从而方便我们从中提取数据或进行其他操作。以下是对BeautifulSoup库的详细...
【Python编程】基于ebooklib的电子书生成与提取工具类实现：自动化创建与转换EPUB文件
2025-04-28 17:00

具体地，通过 `make_epub_by_path` 方法可以根据指定目录下的多个 txt 文件创建电子书，而 `make_epub_by_file` 方法则是根据单个 txt 文件创建电子书，这两个方法都会按照一定的规则解析文件内容中的标题和正文并...
Python爬虫代理池项目-使用requests库发送HTTP请求获取网页内容结合BeautifulSoup解析HTML页面结构通过正则表达式re模块提取代理IP地址信息并利用Re.zip
2025-09-12 00:35

此外，附赠资源.docx和说明文件.txt这两个文件名称暗示了项目包含了详细的文档说明和相关资源，为项目的理解和应用提供了额外的参考资料。最后，值得注意的是，项目中特别提到了与Kotlin语言相关的资源上传，这...
n行Python代码系列：三行程序将提取HTML中的纯文本信息
2021-03-11 07:12

LaoYuanPython的博客本文介绍了使用Python BeautifulSoup模块快速解析HTML报文，并提取HTML报文中的纯文本信息的方法和案例，通过BeautifulSoup模块可简单快速完成从HTML文本中提取出去除标签信息的纯文本，方便后续程序的使用。
使用python进行文本预处理和提取特征的实例
2020-09-20 10:15

Python作为一种高级编程语言，因其简洁的语法和强大的库支持，被广泛用于文本预处理和特征提取。本文将详细介绍如何使用Python进行文本预处理和特征提取，以及相关的实现步骤和注意事项。首先，文本预处理是数据...
Python提取HTML元素[项目源码]
2025-11-14 07:05

Python是一种广泛使用的高级编程语言，它支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。在处理网页内容时，Python拥有强大的库支持，其中Beautiful Soup是一个用于解析HTML和XML文档的库，非常适合...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月28日
展开全部

beautifulsoup如何提取HTML文件中两个相同标签之间的文本？

3条回答 默认 最新

问题事件

3条回答默认最新