Scrapy多级页面爬取，程序运行顺序问题

# -*- coding: utf-8 -*-
import scrapy
from SYDW.items import SydwItem
class DanweiCrawlingSpider(scrapy.Spider):
    # 继承自Spider类
    name = 'danwei_crawling'
    allowed_domains = ['chinasydw.org']#允许域名
    start_urls = ['http://www.chinasydw.org']
    base_domain = 'http://www.chinasydw.org'

    def parse(self, response):
        province = response.xpath("//div[@class='fenzhan']//a/@href")
        for each_p in province:
            yield scrapy.Request(each_p.get(),callback=self.get_page)


    def get_page(self,response):
        for each in response.xpath("//div[@class='body']/ul[@class = 'list11 clearfix']/li[not(@class='ivl')]"):
            item = SydwItem()
            name = response.xpath("//div[@class='body']/ul[@class = 'list11 clearfix']/li[not(@class='ivl')]/a[not(@style)]/text()").get()
            time = response.xpath("//div[@class='body']/ul[@class = 'list11 clearfix']/li[not(@class='ivl')]/span[@class='time']/text()").get()
            link = response.xpath("//div[@class='body']/ul[@class = 'list11 clearfix']/li[not(@class='ivl')]/a[not(@style)]/@href").get()
            item['name']=name
            item['time']=time
            item['link']=link
            yield item
        next_url = response.xpath("//div[@class='pageset']/a[last()]/@href").get()
        yield scrapy.Request(self.base_domain+next_url,callback=self.get_page,meta={'item':item})

思路：
parse函数获取分站信息
然后进入分站，获取分站每一页信息。

问题：
爬取顺序问题：
按设想应该是进入分站——爬取完多个页面——进入下一个分站——爬取完多个页面；实际上运行结果是进入分站——爬取完当前页面——进入下一个分站——爬取完当前页面，直到所有分站遍历完后再开始进入分站的下一页。

初学scrapy，希望得到大家的帮助。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
进击的Coders 2020-12-23 14:12
关注
我也遇到了这个问题，你解决了吗

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
Scrapy框架时爬取网页时报错 python 有问必答
2021-05-26 16:56

回答 2 已采纳你的数据清洗方法用错了，参考一下：https://blog.csdn.net/qq_43004728/article/details/84586628，如有帮助，望采纳
python多级json数据_low-level~python scrapy多级页面爬取并存储为JSON格式
2020-12-19 11:26

weixin_39922361的博客在上一篇scrapy(low-level~python scrapy自动爬取网页的爬虫)[https://www.jianshu.com/p/9b07e556216e]中我们实现了翻页操作，但是这种操作不利于改动。这次改进为分模块编程的思想。思路：第一步:提取每页的链接第...
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
scrapy框架+formdata+ajax爬取及翻页问题 python 数据挖掘测试用例
2020-03-25 14:18

回答 1 已采纳 def parse(self, response): result = eval(response.body.decode('utf-8')) 兄弟，你打印一下resu
利用scrapy如何爬取图表中的数据 python 其他有问必答
2021-07-07 23:48

回答 1 已采纳 scrapy得出的响应内容是在network的doc里面，如图如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
python爬虫网站代码嵌套多层_Python 自用代码（scrapy多级页面(三级页面)爬虫）
2020-12-05 04:54

weixin_39530149的博客 #-*- coding: utf-8 -*-importscrapyfrom nosta.items importNostaItemimporttimeimporthashlibclassNostaSpider(scrapy.Spider):name= "nosta"allowed_domains= ["nosta.gov.cn"]start_urls=[...
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
scrapy爬虫爬取多网页内容
2023-04-20 20:33

Changersh的博客 scrapy爬虫
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy
2021-02-09 12:55

新垣结衣的老婆的博客本文分享的大体框架包含以下三部分(1)首先介绍html网页，用来解析html网页的工具xpath(2)介绍python中能够进行网络爬虫的库(requests，lxml，scrapy等)(3)从四个案例出发有易到难依次介绍scrapy集成爬虫框架下面开始...
Python 自用代码（scrapy多级页面(三级页面)爬虫）
2017-05-09 11:32

weixin_34327223的博客入职接到的第一个小任务，scrapy多级页面爬虫，从来没写过爬虫，也没学过scrapy，甚至连xpath都没用过，最后用了将近一周才搞定。肯定有很多low爆的地方，希望大家可以给我一些建议。 spider文件： # -*- coding...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

Scrapy多级页面爬取，程序运行顺序问题

1条回答 默认 最新

悬赏问题

1条回答默认最新