在scrapy中如何实现在多个页面上进行爬取

目标是爬取http://download.kaoyan.com/list-1到http://download.kaoyan.com/list-1500之间的内容，每个页面中的又有翻页的list-1p1到list-1p20。目前只能实现在list1p上面爬取，应该如何修改代码跳转到list-6上面？list-2是404

# -*- coding: utf-8 -*-
import scrapy
from Kaoyan.items import KaoyanItem

class KaoyanbangSpider(scrapy.Spider):
    name = "Kaoyanbang"
    allowed_domains = ['kaoyan.com']
    baseurl = 'http://download.kaoyan.com/list-'
    linkuseurl = 'http://download.kaoyan.com'
    offset = 1
    pset = 1

    start_urls = [baseurl+str(offset)+'p'+str(pset)]

    handle_httpstatus_list = [404, 500]

    def parse(self, response):
        node_list = response.xpath('//table/tr/th/span/a')
        for node in node_list:
            item = KaoyanItem()
            item['name'] = node.xpath('./text()').extract()[0].encode('utf - 8')
            item['link'] = (self.linkuseurl + node.xpath('./@href').extract()[0]).encode('utf-8')
            yield item

        while self.offset < 1500:
            while self.pset < 50:
                self.pset = self.pset + 1
                url = self.baseurl+str(self.offset)+'p'+str(self.pset)
                y = scrapy.Request(url, callback=self.parse)
                yield y
            self.offset = self.offset + 5

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 18:27
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
给你找了一篇非常好的博客，你可以看看是否有帮助，链接：用scrapy爬取股票行情

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python爬虫爬取多个页面_python网络爬虫之使用scrapy自动爬取多个网页
2020-11-24 10:20

weixin_39542742的博客如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页对应的网页代码：我们再看进入后面章节的网页，可以看到增加了上一页对应的网页代码：...
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
Python抓取框架Scrapy爬虫入门：页面提取
2020-09-21 00:56

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改，下面这篇文章主要给大家介绍了关于Python抓取框架Scrapy爬虫入门之页面提取的相关资料，文中通过示例代码介绍的非常详细，需要的朋友可以参考...
Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
Scrapy爬虫框架 -- 多页面爬取和深度爬取
2023-04-10 16:43

web安全工具库的博客一、重新定义一个页面模板，并指定页面从第二页开始。二、重组多页模板，并让回调函数进行递归操作。3、将详情页内容当做字段写入items对象。四、在爬虫文件实例化字段并提交到管道。五、让其在管道文件输出，并开启...
python装scrapy库装上了但是不能用 python
2022-12-30 15:18

回答 2 已采纳你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7478137我还给你找了一篇非常好的博客，你可以看看是否有帮助，链接：pyt
基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx
2022-02-13 17:30

本系统采用Scrapy爬虫框架来开发，使用Xpath网页提取技术对下载网页进行内容解析，使用Redis做分布式，使用MongoDB对提取的数据进行存储，使用Django开发可视化界面对爬取的结果进行友好展示，设计并实现了针对链家...
python 定时自动爬取_怎么在python中利用Scrapy实现一个定时爬虫功能
2021-01-28 21:15

夜雨穿林的博客怎么在python中利用Scrapy实现一个定时爬虫功能发布时间：2021-01-18 16:20:54来源：亿速云阅读：57作者：Leah这期内容当中小编将会给大家带来有关怎么在python中利用Scrapy实现一个定时爬虫功能，文章内容丰富且以...
没有解决我的问题, 去提问

悬赏问题

¥50 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥200 uniapp长期运行卡死问题解决
¥15 latex怎么处理论文引理引用参考文献
¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？

在scrapy中如何实现在多个页面上进行爬取

1条回答 默认 最新

悬赏问题

1条回答默认最新