Python用bs4爬取嵌套在ul里的li信息，获取不全

题目情况：用bs4获取标题和简介

出现了问题，我只能爬取每个ul里第一个li的内容，但是每个ul里有很多li，而且li没有class，无法直接定位，我的主要代码和运行结果如下：

我的解题思路起初是再遍历一下ul，可是find_all返回的是列表，不能再用一次find_all了，现在不知道该怎么解决这个问题，初学Python，在网上也没有找到解决办法，请求各位劳斯帮助！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-15 14:10
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【您想要解决的问题】：您提问的目的是解决在使用Python的BeautifulSoup库（bs4）爬取汽车之家新闻信息时，无法获取每个ul标签内所有li标签内容的问题。您只能获取到每个ul内的第一个li的内容，而实际上每个ul内可能包含多个li。

【图片内容】：

第一张图片展示了爬取新闻信息的需求，包括标题和内容。
第二张图片显示了您尝试爬取的代码，包括定义的getCarData函数，该函数接收开始页码和结束页码作为参数，并在循环中构建URL，加载HTML，解析数据，并将结果保存到JSON文件。
第三张图片展示了Load_html函数，用于加载指定URL的HTML内容。
第四张图片展示了parse_lxml函数，该函数负责解析HTML内容并提取新闻标题和内容。但是，代码中存在一个问题，导致只能获取到每个ul下的第一个li。

【问题出现原因】：问题出现的原因是在parse_lxml函数中，您使用了find方法来查找h3和p标签，这只能找到第一个匹配的元素。由于您需要获取所有li中的内容，您应该使用find_all方法来找到所有匹配的h3和p标签。

【问题解决方案】：为了解决这个问题，您需要修改parse_lxml函数，使其能够遍历每个ul下的所有li，并获取每个li中的h3和p标签的内容。

【提供代码】：以下是修改后的parse_lxml函数的代码示例，它将能够获取每个ul下所有li的内容：

def parse_lxml(html): tree = etree.HTML(html) soup = BeautifulSoup(html, features='lxml') node_lists = soup.find_all(name='ul', class_='article') items = [] for node_list in node_lists: li_tags = node_list.find_all('li') for li in li_tags: title = li.find('h3').text if li.find('h3') else '' content = li.find('p').text if li.find('p') else '' item = { "文章标题": title, "文章内容": content } items.append(item) return items

【代码运行方式】：要运行这段代码，您需要确保您的Python环境中安装了beautifulsoup4和lxml库。您可以使用pip安装这些库：

pip install beautifulsoup4 lxml

然后，您可以将上述函数集成到您的爬虫程序中，并按照您之前的流程运行。

【代码预期运行结果】：如果代码正确执行，它将遍历每个ul标签下的所有li标签，并获取每个li中的标题和内容，最终将这些信息作为列表返回。

【推荐相关链接】：

BeautifulSoup官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
lxml官方文档：https://lxml.de/
Python官方文档：https://docs.python.org/3/

请注意，上述代码和解决方案是基于您提供的图片和描述进行的假设性解答，实际情况可能需要根据实际的HTML结构进行调整。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python中bs4如何提取嵌套标签中的某段文本
2024-11-12 17:18

yoggie尤的博客在当今这个信息爆炸的时代，数据无处不在，而从网页中提取有价值的信息成为了一项重要的技能。...本文将带你深入了解bs4在处理嵌套标签时的强大功能，以及一些实用技巧，帮助你在数据挖掘的道路上更进一步。
python爬虫教程（五）：解析库bs4及爬取实例
2022-05-04 13:00

python慕遥的博客大家好，今天分享的是解析库中的bs4，这个库如果是初学者的话肯定听过，本文章的目的是让你知道如何使用bs4。一、安装及初始印象 1.安装 bs4是一个第三方库，需要安装。如果使用的是默认的IDE，可以在命令行下敲...
Python爬虫使用bs4方法实现数据解析
2020-09-16 08:52

标题中的“Python爬虫使用bs4方法实现数据解析”指的是使用Python编程语言编写网络爬虫时，通过BeautifulSoup（简称bs4）库来解析网页HTML或XML文档，从而提取所需数据的过程。描述中提到，文章提供了详细的示例代码...
利用bs4爬取资料信息
2024-04-26 12:48

xinxinzi_work的博客利用bs4爬取资料信息
Python bs4解析库使用详解
2022-12-28 09:49

永远是少年啊的博客今天继续给大家介绍Python 爬虫相关知识，本文主要内容是Python bs4解析库使用详解。一、Python bs4库简介与安装二、Python bs4库获取数据三、Python bs4库使用（一）基本标签查找（二）递进关系标签查找（三...
python 获取li的内容_Python 爬虫解析库的使用
2020-11-21 04:33

weixin_39657125的博客解析库的使用(1)解析库的使用--Beautiful Soup:BeautifulSoup是Python的一个HTML或XML解析库，最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组，相...
Python爬虫中bs4的基础使用
2025-11-14 16:23

小夏缘的博客安装使用pip install beautifulsoup4，主要方法包括find()/find_all()定位标签、select()支持CSS选择器，可提取文本和属性值。示例演示了爬取网页数据（如排名、图片URL等）的实际应用，相比正则表达式更适合处理...
[特殊字符]用Python爬取政府网站公开招标信息：从爬虫到数据可视化全流程实战（附代码）
2025-05-01 20:53

Python爬虫项目的博客 ✅ 分析政府网站结构；✅ 自动化爬取招标信息；✅ 解析详细信息页面；✅ 数据可视化图表输出；✅ 模块化构建爬虫系统。
bs4爬取的时候有两个标签相同_4.4 爬虫中的bs4数据爬取步骤
2020-12-27 09:59

熙熙鹅儿的博客第三方包先安装 beatifulsoup抓取工具位置：第三方开发包，如果使用，则需要单独下载的工具包安装：后台命令：9版本以下----pip install bs4 或者 pip3 install Beatifulsoup4（在pycharm中的Terminal中和后台命令均...
bs4解析入门：爬取当当网30天内热销的书名和价格
2023-07-27 15:28

SeverinZ的博客 bs4 是 html 里。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月15日

Python用bs4爬取嵌套在ul里的li信息，获取不全

2条回答 默认 最新

问题事件

2条回答默认最新