python scrapy 爬取多页合并问题

scrapy学习有几个月了，普通scrapy和crawl都能够实现，现在碰到一个问题：
在使用scrapy爬取多分页后，如何把多分页内容合并写入到一个item[x]内？
我现在使用 yield Request 至 def art_url 来获取分页内容，用append把内容集合后，用 item['image_urls'] = self.art_urls 来接收结果，
但结果一直接收，每篇内容的分页的接收导致很多，请教一下，如何把每篇的分页内容合并写入一项itme？

刚学不到半年，代码凌乱，望包含，主要是想学习如何爬取小说站，把每一章都合并在一起，不要分页搞很多数据，和合适代码推荐下，研究学习，谢谢了
我的代码：

art_urls = []
rules = (
        Rule(LinkExtractor(allow='wenzhang/',restrict_xpaths=('//table[@id="dlNews"]')), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print(response.url)
        item = SpiderItem()
        conn = Redis(host='127.0.0.1', port=6379)
        item['title'] = response.xpath('//h1/text()').extract_first()
        ex = conn.sadd('movies_url', response.url)
        for next_href in response.xpath('//div[@class="pager"]/ul/li/a/@href').extract():
            next_url = self.base_url + next_href.replace('../','')
            if ex == 1:
                # print('开始解析单页')
                yield Request(next_url, callback=self.art_url)
                # yield scrapy.Request(url=next_url, callback=self.parse_detail, meta={'title': title,'img_src':img_src})
            else:
                print("无数据更新！！！")
        # print(self.art_urls)
        item['image_urls'] = self.art_urls
        # print(len(item['image_urls']))
        # print(item)
        yield item

    def art_url(self, response):
        art_urls = response.xpath('//div[@id="content"]/div/p/img/@src').extract()
        for art_url in art_urls:    # 开始解析分页
            art_url = art_url.replace('../../upload/','')
            self.art_urls.append(art_url)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2019-09-28 10:21
关注
https://www.jianshu.com/p/0c957c57ae10

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
python scrapy 爬取学习问答网站
2020-03-14 12:07

Dwlufvex的博客详解学习爬取网站
scrapy 爬取图片报错 error processing python
2021-12-20 01:08

回答 1 已采纳 http: 去那里啦?
scrapy 爬取商品视频url,详情失败 python
2022-02-17 10:28

回答 3 已采纳 js加载的，先打印看下获取的整个网页。我试了下，在下图这个位置可以找到视频链接，可以用正则或者别的方法取出来
scrapy爬取百度图片时Forbid spider access python 有问必答
2021-06-13 23:12

回答 2 已采纳这个是百度反爬虫导致的，
Python3网络爬虫开发实战，Scrapy 爬取新浪微博
2020-08-11 16:09

Python新世界的博客接下来我们以一个反爬比较强的网站新浪微博为例，来实现一下 Scrapy 的大规模爬取。很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，...
scrapy 爬取图片时图片的url总是显示None python 有问必答
2021-12-04 01:41

回答 1 已采纳 img_url = div.xpath('./div/a/img/src').extract_first() src前面少了 @ 改成 img_url = div.xpath('./
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
scrapy-爬取京东笔记本电脑信息问题 chrome python selenium 开发语言
2020-09-01 19:12

回答 2 已采纳 ``` browser.quit() return HtmlResponse(url=request.url, body=browser.page_source, re
用scrapy爬取京东商品信息
2020-03-29 23:22

大A123的博客 scrapy是一个非常著名的爬虫框架，使用这个框架可以非常容易的生成一个网站爬虫程序框架，之后就可以在框架之上方便的进行爬虫的编写。进来想要了解一些产品的市场信息，就用scrapy写了个简单的爬虫，写个笔记记录...
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
Scrapy爬取知乎热榜信息
2021-03-21 15:50

低调，做自己的博客前两周去学习了一下Django，由于第一次接触...但还是不得不继续学习我计划中的下一个框架——Scrapy，从3.15到今天3.21号已经正好过去一周了，我花了四到五天的时间看完了一本半的书，周五晚上熬了个夜最终把整个scr
python 爬取数据还要下载scrapy吗_python网络爬虫之Scrapy
2021-02-09 12:55

新垣结衣的老婆的博客本文分享的大体框架包含以下三部分(1)首先介绍html网页，用来解析html网页的工具xpath(2)介绍python中能够进行网络爬虫的库(requests，lxml，scrapy等)(3)从四个案例出发有易到难依次介绍scrapy集成爬虫框架下面开始...
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

python scrapy 爬取多页合并问题

1条回答 默认 最新

悬赏问题

1条回答默认最新