如何解决python爬虫问题？

用python爬取小说章节时，出现非章节链接，该如何处理？

问题相关代码：

import requests
import parsel
import re

list_url='http://huayu.zongheng.com/showchapter/1222064.html'
response=requests.get(list_url)
#print(response.text)
selectors=parsel.Selector(response.text)
href=selectors.css('div div div div ul li a::attr(href)').getall()
print(href)

运行出现的问题：结果出现了非章节链接，不知道如何处理

我的解答思路和尝试过的方法：我刚开始打算用for循环和re正则表达式进行排除，还是没找到对应的方法

我想要达到的结果：能够排除非章节链接

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
梦里逆天 2022-08-15 09:50
关注
应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall() 或 href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall()

import requests import parsel list_url = 'http://huayu.zongheng.com/showchapter/1222064.html' response = requests.get(list_url) print(response.text) selectors = parsel.Selector(response.text) # body > div.container > div:nth-child(2) > div.volume-list > div > ul > li:nth-child(1) > a # href = selectors.css('div.container div div div ul li a::attr(href)').getall() href = selectors.css('div.volume-list > div > ul > li > a::attr(href)').getall() print(href)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
Python爬虫可行？？？ python 有问必答
2021-07-06 07:10

回答 2 已采纳不登陆的情况下不可以爬数据，网站会自动验证登录状态，你可以cookies去做，实际上也是已经登录了用户。如果跳过登录直接拿数据，就是入侵了，一般技术是做不到，而且难度大也是违法。如果对你有帮助，可以点
关于python爬虫的问题，如何解决？ python 爬虫
2022-09-24 14:13

回答 1 已采纳可以看下python参考手册中的 python- 接下来？
小白如何入门 Python 爬虫？.docx
2023-04-26 22:12

编程语言基础语法无非是数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理这些，学起来会显枯燥但并不难。刚开始入门爬虫，你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向...
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python爬虫解码的问题？ python 有问必答
2021-09-11 15:07

回答 2 已采纳在获得响应后，使用response.encoding=response.apparent_encoding识别网页编码即可，示例： from bs4 import BeautifulSoup from
Python 爬虫基础网络爬虫、数据采集、Python编程、数据处理
2023-08-12 18:32

资源描述：这个资源是关于Python爬虫基础的教程，旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫，从网页中抓取数据，并进行基本的数据处理和存储。内容概要：教程涵盖了Python爬虫的基本概念、...
python爬虫登录教务网站，怎么解决校园网的问题？ python 爬虫网络
2021-12-01 11:03

回答 2 已采纳教务网站应该只能在内网下访问；你找你们学校的VPN，用爬虫从那个入口进入，应该是可以解决的
求解决关于python爬虫问题，进不去循环？ python 有问必答
2021-07-07 15:46

回答 2 已采纳估计是soup.find_all('div',class_='imgbox')没有返回值。从这几个方面排查修改：检查所写节点是否正确，根据页面代码进行修改; html应该是文本格式，即在askUrl中
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据。爬虫程序通过模拟浏览器的行为，自动访问网页并提取所需的数据，如文本、图片、视频等
python爬虫提取文本？ python
2021-07-14 11:26

回答 1 已采纳 import re a = "<script type='text/javascript'>window._global = {env: 'production',currentUser
Python 爬虫编程从入门到实践
2024-03-11 13:42

爬虫 Python编程从入门到实践
python爬虫学习文档，包含爬虫基础，加密算法，并发编程，逆向等
2024-01-18 10:28

js逆向pic python并发编程pic 加密算法pic 安卓逆向pic 爬虫基础 js逆向.md js逆向案例.md python并发编程.md 加密算法.md 安卓逆向.md
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月15日

悬赏问题

¥170 如图所示配置eNSP
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥15 键盘指令混乱情况下的启动盘系统重装

如何解决python爬虫问题？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新