爬虫分页怎么失败了？

这是我第一次提问~~我正在制作一个网络爬虫，我想用它来爬取invia.cz上所有的酒店链接和名称。

import scrapy


y=0
class invia(scrapy.Spider):
    name = 'Kreta'
    start_urls = ['https://dovolena.invia.cz/?d_start_from=13.01.2017&sort=nl_sell&page=1']

    def parse(self, response):

        for x in range (1, 9):
            yield {
             'titles':response.css("#main > div > div > div > div.col.col-content > div.product-list > div > ul > li:nth-child(%d)>div.head>h2>a>span.name::text"%(x)).extract() ,
             }

        if (response.css('#main > div > div > div > div.col.col-content >   
                            div.product-list > div > p > 
                            a.next').extract_first()):
         y=y+1
         go = ["https://dovolena.invia.cz/d_start_from=13.01.2017&sort=nl_sell&page=%d" % y] 
         print go
         yield scrapy.Request(
                response.urljoin(go),
                callback=self.parse
         )

这个网站页面是用Ajax加载的，我手动更改了URL的值，只有当Next按钮出现在页面中时，才会增加一个URL值。当我测试按钮是否出现时，所有条件都运行得很好，但是当我启动爬虫时，它只爬取第一页。这是我第一个爬虫项目，可能还做的不是很成熟，总之先谢谢你的解答！

错误日志在这：Error Log1 Error Log

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

weixin_33733810 2017-01-17 20:03

关注

Your usage of "global" y variable is not only peculiar but won't work either

You're using y to calculate how many times parse was called. Ideally you don't want to access anything outside of the functions scope, so you can achieve the same thing with using request.meta attribute:

def parse(self, response):
    y = response.meta.get('index', 1)  # default is page 1
    y += 1
    # ...
    #next page 
    url = 'http://example.com/?p={}'.format(y)
    yield Request(url, self.parse, meta={'index':y})

Regarding your pagination issue, your next page url css selector is incorrect since the <a> node you're selecting doesn't have a absolute href attached to it, also this issue makes your y issue obsolete. To solve this try:

def parse(self, response):
    next_page = response.css("a.next::attr(data-page)").extract_first()
    # replace "page=1" part of the url with next number
    url = re.sub('page=\d+', 'page=' + next_page, response.url)
    yield Request(url, self.parse, meta={'index':y})

EDIT: Here's the whole working spider:

import scrapy
import re


class InviaSpider(scrapy.Spider):
    name = 'invia'
    start_urls = ['https://dovolena.invia.cz/?d_start_from=13.01.2017&sort=nl_sell&page=1']

    def parse(self, response):
        names = response.css('span.name::text').extract()
        for name in names:
            yield {'name': name}

        # next page
        next_page = response.css("a.next::attr(data-page)").extract_first()
        url = re.sub('page=\d+', 'page=' + next_page, response.url)
        yield scrapy.Request(url, self.parse)

报告相同问题？

关注问题

Python爬虫可行？？？ python 有问必答
2021-07-06 07:10

回答 2 已采纳不登陆的情况下不可以爬数据，网站会自动验证登录状态，你可以cookies去做，实际上也是已经登录了用户。如果跳过登录直接拿数据，就是入侵了，一般技术是做不到，而且难度大也是违法。如果对你有帮助，可以点
请问我的爬虫违规么？爬虫
2022-01-05 16:19

回答 6 已采纳可以参考下这个，这是一个整理了所有中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规。https://github.com/HiddenStrawberry/Crawler_Illegal_Cas
Python爬虫.*?匹配时的疑惑 python 爬虫
2022-09-21 11:27

回答 4 已采纳 .*?点代表任意字符星表示前面的字符重复任意次数点星就表示任意长度的字符串问号表示非贪婪匹配，也就是匹配到第一个能跟后续字符匹配的字符串就结束-=-=-=那么好了，两个匹配，一个是item.*?tit
前端分页插件
2019-04-17 17:30

1. 考虑SEO：对于搜索引擎优化（SEO），前端分页可能会造成问题，因为搜索引擎爬虫不会执行JavaScript。可以考虑使用服务器端渲染或Prerendering技术解决。 2. 数据安全：确保在处理分页请求时验证参数，防止恶意...
爬虫代码没错却爬取失败？ python 有问必答
2021-07-20 07:59

回答 4 已采纳爬虫被封禁常见原因列表如果你一直被网站封杀却找不到原因，那么这里有个检查列表，可以帮你诊断一下问题出在哪里。首先，检查 JavaScript 。如果你从网络服务器收到的页面是空白的，缺少信息，或其
python爬虫提取文本？ python
2021-07-14 11:26

回答 1 已采纳 import re a = "<script type='text/javascript'>window._global = {env: 'production',currentUser
如何解决python爬虫问题？ python 人工智能爬虫
2022-08-15 09:11

回答 1 已采纳应该是css选择器里面的规则不够明确，可改成href = selectors.css('div.container div div div ul li a::attr(href)').getall()
jquery分页纯前端分页修改部分bug，利于调用
2019-10-30 21:28

在实现过程中，你还需要考虑一些额外的因素，如SEO友好（对于爬虫来说，所有数据应该可被抓取）、响应式设计（分页应适应不同屏幕尺寸）以及用户体验（提供清晰的指示，如当前页数和总页数）。同时，对于大型项目，...
Qpython能写爬虫程序吗？ python
2021-08-09 23:45

回答 2 已采纳爬虫是可以的，我试过但是这个qpython兼容性不是很好，有些库可能无法使用如果我的回答对你有用，点击右上角给个采纳哦~
python爬虫下载PDF失败 python 爬虫
2023-03-27 13:35

回答 3 已采纳感谢两位。我刚刚分析了一下所有下载异常的文件，名字中都有冒号：，replace替换后现在可以下载了。
Python的爬虫的问题？ python 爬虫
2015-08-16 10:46

回答 5 已采纳可以scrapy，python最有名的爬虫框架。爬虫主要就是爬取大量页面，获取你需要的数据。
10. 爬虫训练场，分页爬虫案例前端页面制作
2022-12-26 11:39

梦想橡皮擦的博客实现 Python Flask 分页会涉及如下参数值。除了重要参数外，实现一个分页对象还需要如下参数变量。其中和通过外部传递，为单页数据量，可以硬编码，也可以通过配置文件进行读取。接下来就先实现分页函数逻辑，...
爬虫如何下载验证码图片？ python 有问必答爬虫
2022-01-28 14:45

回答 2 已采纳 base64数据，base64.b64decode下得到2进制数据后保存 import base64 ####src改为获取到的数据 src = "data:image/gif;base64,R0
SEO是什么？前端如何进行SEO优化
2021-11-13 22:54

万物之恋的博客前端如何进行SEO优化 SEO是什么？ seo又称网站优化，也称搜索引擎优化，英文名（Search Engine Optimization），简称：seo。 seo是一种基础搜索引擎的网络营销推广方式，通过搜索引擎平台的规则来优化，以实现产品...
基于nodejs 的多页面爬虫实例代码
2020-12-23 10:09

前端时间再回顾了一下node.js，于是顺势做了一个爬虫来加深自己对node的理解。主要用的到是request，cheerio，async三个模块 request 用于请求地址和快速下载图片流。 https://github.com/request/request ...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

码龄粉丝数原力等级 --

爬虫分页怎么失败了？

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

爬虫分页怎么失败了？

1条回答 默认 最新

悬赏问题

1条回答默认最新