如何解决python爬虫问题？

用python爬取小说章节时，出现非章节链接，该如何处理？

问题相关代码：

import requests
import parsel
import re

list_url='http://huayu.zongheng.com/showchapter/1222064.html'
response=requests.get(list_url)
#print(response.text)
selectors=parsel.Selector(response.text)
href=selectors.css('div div div div ul li a::attr(href)').getall()
print(href)

运行出现的问题：结果出现了非章节链接，不知道如何处理

我的解答思路和尝试过的方法：我刚开始打算用for循环和re正则表达式进行排除，还是没找到对应的方法

我想要达到的结果：能够排除非章节链接

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
梦里逆天 2022-08-15 09:50
关注
应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall() 或 href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall()

import requests import parsel list_url = 'http://huayu.zongheng.com/showchapter/1222064.html' response = requests.get(list_url) print(response.text) selectors = parsel.Selector(response.text) # body > div.container > div:nth-child(2) > div.volume-list > div > ul > li:nth-child(1) > a # href = selectors.css('div.container div div div ul li a::attr(href)').getall() href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall() print(href)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬虫为什么常用Python语言？
2024-06-29 11:23

凯森森讲Python的博客其实不同的编程语言都可以写爬虫，只是有些语言更适合于某些场合和目的。在这篇文章中，从性能、难度、功能、风险等方面来比较几种常见的编程语言在写爬虫方面的优缺点，并且给出我的建议和看法。在探讨为什么爬虫非...
python爬虫-Day14 网络编程入门和网络应用开发.rar
2024-08-29 09:11

python爬虫-Day14 网络编程入门和网络应用开发.rar
Python 在网络爬虫领域的未来：反爬虫技术是否让 Python 爬虫失效？
2025-03-27 02:22

代码旅人jM的博客反爬虫技术的兴起确实对 Python 爬虫提出了更高的要求，但这并不意味着 Python 爬虫已经失效。相反，它促使开发者不断探索更高级的技术手段，并推动了整个领域的进步。在未来，Python 爬虫将继续在合法合规的前提下...
解决python爬虫假死问题(程序偷停问题)
2024-01-31 10:09

红目香薰的博客解决python爬虫假死问题(程序偷停问题)
Python爬虫能处理大量数据吗？
2024-12-10 14:02

小爬虫程序猿的博客在items.py通过上述示例，我们可以看到Python爬虫确实能够处理大量数据，但需要合理设计和优化以克服性能和资源限制。通过采用最佳实践和利用Python生态系统中的工具，可以有效地处理大规模数据集。Python爬虫技术在...
python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

在本项目中，"python爬虫数据可视化分析大作业.zip" 是一个综合性的学习资源，主要涉及了Python编程中的两个重要领域：网络爬虫（Web Scraping）和数据可视化（Data Visualization）。通过这个作业，我们可以深入...
要学会Python爬虫都需要什么基础呢？
2021-09-27 10:39

程序员的小傲娇的博客首先你需要掌握的就是Python的基础知识，包括Python语法、编程结构等等，这些是你后续开发Python爬虫的基础，所以这一部分还是非常重要的。其次就是前端的基础知识你也需要了解一些，毕竟你想要获取的数据都在前端中...
提高Python网络编程实战视频教程网络抓取爬虫01解释性脚本语言初探.avi
2025-01-05 14:09

提高Python网络编程实战视频教程网络抓取爬虫01解释性脚本语言初探
python 爬虫入门实例.zip
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
python为什么叫爬虫？Python和爬虫有什么关系？
2021-09-27 10:45

程序员的小傲娇的博客提到Python有同学自然就想到爬虫，但实际上...爬虫主要的工作就是根据一定的规则去抓取网络上我们想要的数据的程序，这里大家要注意的是爬虫不一定非要使用Python才可以实现的，使用JavaScript、Java等语言都是可以
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月15日

如何解决python爬虫问题？

1条回答 默认 最新

问题事件

1条回答默认最新