scrapy 分页抓取后合并问题

scrapy学习有几个月了，普通scrapy和crawl都能够实现，现在碰到一个问题：
在使用scrapy爬取多分页后，如何把多分页内容合并写入到一个item[x]内？
我现在使用 yield Request 至 def art_url 来获取分页内容，用append把内容集合后，用 item['image_urls'] = self.art_urls 来接收结果，
但结果一直接收，每篇内容的分页的接收导致很多，请教一下，如何把每篇的分页内容合并写入一项itme？

刚学不到半年，代码凌乱，望包含，主要是想学习如何爬取小说站，把每一章都合并在一起，不要分页搞很多数据，和合适代码推荐下，研究学习，谢谢了
我的代码：

art_urls = []
rules = (
        Rule(LinkExtractor(allow='wenzhang/',restrict_xpaths=('//table[@id="dlNews"]')), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print(response.url)
        item = SpiderItem()
        conn = Redis(host='127.0.0.1', port=6379)
        item['title'] = response.xpath('//h1/text()').extract_first()
        ex = conn.sadd('movies_url', response.url)
        for next_href in response.xpath('//div[@class="pager"]/ul/li/a/@href').extract():
            next_url = self.base_url + next_href.replace('../','')
            if ex == 1:
                # print('开始解析单页')
                yield Request(next_url, callback=self.art_url)
                # yield scrapy.Request(url=next_url, callback=self.parse_detail, meta={'title': title,'img_src':img_src})
            else:
                print("无数据更新！！！")
        # print(self.art_urls)
        item['image_urls'] = self.art_urls
        # print(len(item['image_urls']))
        # print(item)
        yield item

    def art_url(self, response):
        art_urls = response.xpath('//div[@id="content"]/div/p/img/@src').extract()
        for art_url in art_urls:    # 开始解析分页
            art_url = art_url.replace('../../upload/','')
            self.art_urls.append(art_url)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-09-28 10:21
关注
https://www.jianshu.com/p/0c957c57ae10

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
scrapy框架的安装与基本使用,scrapy分页数据的抓取
2022-11-04 08:00

Transcend oneself的博客本章主要是讲解scrapy的安装与基本使用,讲解scrapy的实现基本流程,以及如何使用scrapy进行分页抓取数据
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
python抓取405错误 python 有问必答爬虫
2022-01-07 16:37

回答 2 已采纳建议使用requests,添加参数headers,cookies，params,这样试一下。
scrapy安装失败的问题 python 有问必答
2021-04-17 21:20

回答 4 已采纳 can't find Rust compiler，找不到Rust编译器
python爬虫抓取分页_Scrapy爬虫框架之Scrapy爬取分页数据（一）
2020-12-03 21:19

weixin_39893728的博客 Python应用场景Scrapy 爬虫框架课程特色时间就是生命，浓缩才是精华 (4小时，完成了Scrapy爬虫必备知识点讲解)课程体系完整 ( 应用场景、Scrapy体系结构、分页爬虫、整站爬虫、爬虫伪装)案例驱动教学 (深入浅出、...
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
关于scrapy 无法启动的问题 python
2022-08-22 21:07

回答 2 已采纳这是在两个不同py文件，要使用CnblogspiderItem需要导入另一个文件在Cnblog...py文件开头导入另一个文件import Item（反正就是另一个文件的文件名，图片模糊有些看不清）
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 10:32

回答 1 已采纳 self.xidian_next_page确定有值吗
Python爬虫 | 如何使用爬虫框架scrapy爬取分页数据案例演示
2023-10-06 11:00

程序员晓晓的博客 1.1使用scrapy框架爬取分页数据案例演示创建工程的步骤和之前的文章中的步骤一样，今天就不在这里重复，有需要查看详情的，可以查看小编之前发布的文章【Python爬虫(16) | 使用明星框架scrapy中的Pipeline将数据...
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
关于Scrapy 批量抓取顺序的调整
2022-09-21 11:09

王不亏的博客关于Scrapy 批量抓取顺序的调整
Python基于Scrapy豆瓣电影爬虫及Django电影展示网站设计
2023-11-02 14:31

这个项目有2个爬虫程序和一个网站程序：其中一个爬虫负责分页抓取json格式的数据，分析拿到豆瓣电影的详情页面url地址存入到redis数据库的content_urls集合中；另外一个爬虫负责抓取详情页url的电影内容字段，包括...
没有解决我的问题, 去提问

悬赏问题

¥15 如何实验stm32主通道和互补通道独立输出
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题