scrapy爬取小说，从详情页获取了书名等信息再爬小说正文，如何做到所有章节被放在一个list里面？

我想要这样的形式：

{"book_name": "XXXX", "writer": "XXX", "type": "XXX", "total_click": "XXX", "book_intro": "XXX", "label": ["XX", "XX", "XX", "XX"], "total_word_number": "XX ", "total_introduce": "XX", "week_introduce": "XX", "read_href": "XX", "chapters": [{"name": "第0001章 XX", "word_count": "XX", "time": "XX", "text": "XXXX"},{"name": "第0002章 XX", "word_count": "XX", "time": "XX", "text": "XXXX"},……]}

就像这样

图片说明

但是现在的结果不是章节在一个dict里面而是每章都返回一次item，我知道是哪里的逻辑有问题，但是不会改

代码如下

# -*- coding: utf-8 -*-
import scrapy
from novel.items import NovelItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
import re


url_page=1

class NovelSpider(CrawlSpider):
    name = 'novel'
    allowed_domains = ['book.zongheng.com']
    custom_settings = {
        "USER_AGENT": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36", }
    start_urls = []
    # for i in range(1,2):
    i = 1
    start_urls.append('http://book.zongheng.com/store/c0/c0/b0/u1/p' + str(i) +'/v9/s9/t0/u0/i1/ALL.html')

    rules = (
        Rule(LinkExtractor(allow=r'book/\d+'), callback="parse_detail"),
    )

     def parse_detail(self,response):
        item = NovelItem()
        item['book_name'] = response.css('div.book-name::text').extract_first()
        item['writer'] = response.css("div.au-name a::text").extract_first()
        item['type'] = response.css(
            "body > div.wrap > div.book-html-box.clearfix > div.book-top.clearfix > div.book-main.fl > div.book-detail.clearfix > div.book-info > div.book-label > a.label::text").extract_first()
        item['total_click'] = response.css(
            "body > div.wrap > div.book-html-box.clearfix > div.book-top.clearfix > div.book-main.fl > div.book-detail.clearfix > div.book-info > div.nums > span:nth-child(3) > i::text").extract_first()
        item['book_intro'] = response.css(
            "body > div.wrap > div.book-html-box.clearfix > div.book-top.clearfix > div.book-main.fl > div.book-detail.clearfix > div.book-info > div********.book-dec.Jbook-dec.hide > p::text").extract_first()
        item['label'] = response.xpath("//div[@class='book-label']/span/a/text()").extract()
        item['total_word_number'] = response.xpath("//div[@class='nums']/span[1]/i/text()").extract_first()
        item['total_introduce'] = response.xpath("//div[@class='nums']/span[2]/i/text()").extract_first()
        item['week_introduce'] = response.xpath("//div[@class='nums']/span[4]/i/text()").extract_first()
        read_href = response.css("div.btn-group>a::attr(href)").extract_first()

        if read_href:
            yield scrapy.Request(
                read_href,
                callback=self.parse_content,
                dont_filter=True,
                meta={"item": item},
            )

    def parse_content(self, response):  # 处理正文
        item = response.meta["item"]
        chapters = []
        chapter_name = response.css("div.title_txtbox::text").extract_first()
        word_count = response.css("#readerFt > div > div.bookinfo > span:nth-child(2)::text").extract_first()
        time = response.css("#readerFt > div > div.bookinfo > span:nth-child(3)::text").extract_first()
        content_link = response.css("div.content")
        paragraphs = content_link.css("p::text").extract()
        content_text = ""
        for i in range(0,len(paragraphs)):
            content_text = content_text + paragraphs[i] + "\n"

        content = dict(name=chapter_name,word_count=word_count,time=time,text=content_text)
        chapters.append(content)
        item['chapters'] = chapters#应该是这里出了问题，但是我不知道怎么解决
        global url_page
        url_page = url_page+1
        next_page = response.css("a.nextchapter::attr(href)").extract_first()
        if url_page<21:
            yield scrapy.Request(
                next_page,
                callback=self.parse_content,
                dont_filter = True,
                meta = {"item": item},
            )
        # print(chapters)
        yield item

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-09 18:36
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
建议你看下这篇博客👉 ：使用scrapy框架爬取淘车网的列表页和详情页的信息，实现scrapy框架的好几级的请求

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
scrapy 怎么爬取网页中标签栏下的所有标签? python 爬虫
2022-10-19 14:43

回答 1 已采纳
如何利用scrapy爬取带标签的网页内容并保存到自己的服务器上？ mysql python sql
2018-02-09 09:34

回答 3 已采纳 1. 把整个爬取到的网页内容直接存储到数据库肯定是可以的，你之所以没有成功，应该是因为你的数据库中的相应字段错了，整个网页内容都比较长，一般都是要用text字段，甚至是LongText)（最大长度42
Python爬虫之scrapy框架-爬取小说信息
2022-06-30 22:55

JPC客栈的博客创建一个scrapy爬虫项目方式如下：（4）创建一个名为qidian_hot的项目（5）用pycharm打开qidian_hot项目其他文件暂时不用管，在spiders文件夹下创建一个Python文件qidian_hot_spider.py. 在这个文件下编写代码...
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 18:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
使用scrapy爬取小说网站的所有小说内容，并且使用简易的flask框架显示所有书和章节与内容
2018-11-02 20:16

忆雨星辰的博客一、爬小说 scrapy startproject demo cd demo scrapy genspider novel 设计mysql表结构如下： 1.存放书的表 create table novels_item( novel_id int auto_increment primary key, novel_name varchar(20)); 2....
使用python scrapy框架写爬虫如何爬取搜狐新闻的参与人数？ python 爬虫
2016-03-29 10:07

回答 2 已采纳这个是可能异步ajax返回的，所以需要用selenium等webdriver来处理
scrapy爬取图片，爬取不到 python 有问必答
2021-05-23 20:32

回答 2 已采纳你已经爬到图片连接了，这个看到的管道文件的代码怎样写，要对图片链接发送请求访问，然后保存才行
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
python爬取京东书籍_一个scrapy框架的爬虫(爬取京东图书)
2020-12-09 11:17

weixin_39708737的博客 1、爬虫spidertips：1、xpath的语法比较坑，但是你可以在chrome上装一个xpath helper，轻松帮你搞定xpath正则表达式2、动态内容，比如价格等是不能爬取到的3、如本代码中，评论爬取部分代码涉及xpath对象的链式调用...
爬取网站有验证码，获取cookie后再爬网页返回reload是为什么 python 爬虫
2021-12-28 11:51

回答 1 已采纳手动添加验证码还不如直接手动添加cookie🙈🙈🙈
Python爬取读书网的图片链接和书名并保存在数据库中
2023-10-31 21:48

Big-Peng的博客这个爬虫项目应该可以适用于挺多场景的，不是特别多，跟着写一下也没啥坏处。如果有代码的需求的话，日后会把项目的代码地址给出。因为自己学爬虫没多久，记录一下梳理下思路，也可以为以后有需要的时候做参考。
Python 爬虫学习笔记（十(2)）scrapy爬取图书电商实战详解
2022-03-22 12:16

湫兮如风i的博客 scrapy框架爬取图书电商实战详解，详细步骤
没有解决我的问题, 去提问

悬赏问题

¥50 如何增强飞上天的树莓派的热点信号强度，以使得笔记本可以在地面实现远程桌面连接
¥15 MCNP里如何定义多个源？
¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services

scrapy爬取小说，从详情页获取了书名等信息再爬小说正文，如何做到所有章节被放在一个list里面？

1条回答 默认 最新

悬赏问题

1条回答默认最新