scrapy爬虫无法翻页

萌新刚刚开始接触爬虫，源网页是个小说网页，应该是没加反爬的机制的https://www.luoqiuzw.com/book/4841/74745706.html

测试了下，只爬单页的话完全没问题，问题点在于构建下一页地址和翻页条件都正确的情况下，无法执行翻页，有没有大佬帮忙看看是什么原因，下面就是主文件的代码

import scrapy
from luoqiu.items import LuoqiuItem
import re



class LuoqiuSpider(scrapy.Spider):
    name = 'luoqiu'
    allowed_domains = ['luoqiu.com']
    start_urls = ['https://www.luoqiuzw.com/book/4841/74745706.html']

    def parse(self, response):
        item=LuoqiuItem()
        item['title']=response.xpath('//*[@id="main"]/div/div/div[2]/h1/text()').extract_first() #获取标题
        print(item['title'])#打印标题
        item['zhengwen']=response.xpath('//*[@id="content"]/p[2]/text()').extract()#测试，只获取正文1行
        print(item['zhengwen'])

        next_url='https://www.luoqiuzw.com'+response.xpath('//*[@id="main"]/div/div/div[2]/div[1]/a[4]/@href').extract_first()#构建下一页
        print(next_url)   #https://www.luoqiuzw.com/book/4841/74745707.html
        next_page=re.search(r'\d{8}',next_url).group()   #提取下一页的页码7474707 str
        print(next_page,type(next_page))#提取下一页的页码7474707 str

        if int(next_page) <=74745720:#判断翻页，这边测试就翻几页
           yield scrapy.Request (url=next_url ,callback=self.parse)

上面这个是执行结果

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-05-06 04:51
关注
代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网页地址列表。

class LuoqiuSpider(scrapy.Spider): name = 'luoqiu' allowed_domains = ['luoqiu.cc'] start_urls = [ f'https://www.luoqiu.cc/297/297526/{page}.html' for page in range(45813215, 45813220)] rules = ( Rule(LinkExtractor(allow=r'297526/.*'), callback='parse', follow=True), ) def parse(self, response): #code
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

编辑

预览

报告相同问题？

关注问题

scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 09:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-13 16:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
scrapy爬虫不自动翻页问题爬虫
2021-11-14 01:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
六 Python之scrapy爬虫框架
2021-05-07 03:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis...scrapy的日志信息与配置 scrapyd部署scrapy项目 Gerapy爬虫管理 crawlspider类的使用
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 11:41

回答 1 已采纳库安装失败了
python爬虫scrapy python 有问必答
2021-07-22 02:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
scrapy如何手动停止爬虫？ python
2021-05-10 01:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
Python的网络爬虫框架-Scrapy爬虫框架的使用
2023-07-09 18:24

ζ小菜鸡的博客大家好我是小菜鸡，让我们一起学习Python的网络爬虫框架-Scrapy爬虫框架的使用（一起努力，咱们顶峰相见！！！）
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 06:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 15:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-28 23:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
python爬虫翻页_Scrapy爬虫案例01——翻页爬取
2020-11-24 00:59

weixin_39906130的博客之前用python写爬虫，都是自己用requests库请求，beautifulsoup（pyquery、lxml等）解析。没有用过高大上的框架。早就听说过Scrapy，一直想研究一下。下面记录一下我学习使用Scrapy的系列代码及笔记。安装Scrapy的...
python爬虫自动翻页_python+scrapy爬虫时如何自动翻页获取内容
2021-02-03 22:24

weixin_39856055的博客自动翻页分为两种情况：此处所举例子有一定的时效性，请具体情况具体分析，方法类似(1)一种是像我之前爬虫新京报网的新闻，下一页的url可以通过审查元素获得，第一页的网址是...下一页按钮的审查元素是我们通过获取next...
scrapy 爬虫框架无法翻页的问题
2020-06-28 10:00

拒绝者zzzz的博客例： for i in range(5,166): next_url="""http://www.xxx_{}.com""".format(i) yield scrapy.Request( url=next_url, callback=self.parse, ) 上面的代码是无法翻页的，因为
Python爬虫——Scrapy框架（附有实战）
2021-09-06 09:41

白巧克力LIN的博客大家好！我是霖hero 有一天，我在逛街，突然被一声靓仔打断了我的脚步，回头一看，原来是水果摊阿姨叫我买水果，说我那么靓仔，...Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，是提取结构性数
没有解决我的问题, 去提问

悬赏问题

¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：
¥15 潜在扩散模型的Unet特征提取

scrapy爬虫无法翻页

5条回答 默认 最新

悬赏问题

5条回答默认最新