scrapy下爬虫爬取子页面详细信息部分代码出错

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

用python写爬虫，目标是获取排行总页面的作品名和排名，再获取该作品详情页部分信息。在生成详情页请求的代码处提示出错：

运行时的报错：

恳请指教谢谢！急

from scrapy import Request
from scrapy.spiders import Spider


class AniRank(Spider):
    name = 'AniRank'
    this_page = 1

    def __init__(self, name=None, ):
        super().__init__(name)
        self.inner_parse = None

    def start_requests(self):
        url = 'https://bangumi.tv/anime/browser?sort=rank'
        yield Request(url)  # 生成请求对象

    def parse(self, response, **kwargs, ):

        list_selector = response.xpath("//li/div[@class='inner']")

        for one_selector in list_selector:

            anime_rank = one_selector.xpath("span/text()").extract()[0]
            anime_name = one_selector.xpath("h3/a/text()").extract()[0]
            anime_year = one_selector.xpath("p/text()").extract()[0]

            anime_year = anime_year.split('/')
            for n in anime_year:
                n = n.strip()
                if ((n.find("年") == 4) and (n.find("月") >= 0)) or (n.find("-") == 4):
                    anime_year = n

            rank_dict = {"bangumi排名": anime_rank,
                         "名称": anime_name,
                         "放送日期": anime_year, }

            url = 'https://bangumi.tv' + one_selector.xpath("h3/a/@href").extract()[0]    #生成详情页url

            yield Request(url,
                          rank_dict,
                          callback=self.inner_parse,)    #此处提示错误

    def inner_parse(self, response):
        anime_co = response.xpath("//ul[@id='infobox']//*[string()='动画制作']/../a/text()").extract()
        rank_dict["制作公司"] = anime_co
        yield rank_dict

        self.this_page += 1
        if self.this_page <= 6:
            next_url = "https://bangumi.tv/anime/browser?sort=rank&page=%d" % self.this_page
            yield Request(next_url, self.parse)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

菜猫小六 2021-12-08 10:03

关注

流程通了细节没改

import copy

from scrapy import Request
from scrapy.spiders import Spider


class AniRank(Spider):
    name = 'AniRank'
    this_page = 1

    def __init__(self):
        super(AniRank).__init__()

    def start_requests(self):
        url = 'https://bangumi.tv/anime/browser?sort=rank'
        yield Request(url)  # 生成请求对象

    def parse(self, response, **kwargs, ):
        list_selector = response.xpath("//li/div[@class='inner']")
        for one_selector in list_selector:
            anime_rank = one_selector.xpath("span/text()").extract()[0]
            anime_name = one_selector.xpath("h3/a/text()").extract()[0]
            anime_year = one_selector.xpath("p/text()").extract()[0]
            anime_year = anime_year.split('/')
            for n in anime_year:
                n = n.strip()
                if ((n.find("年") == 4) and (n.find("月") >= 0)) or (n.find("-") == 4):
                    anime_year = n
            rank_dict = {"bangumi排名": anime_rank,
                         "名称": anime_name,
                         "放送日期": anime_year, }
            url = 'https://bangumi.tv' + one_selector.xpath("h3/a/@href").extract()[0]  # 生成详情页url
            yield Request(url, meta={"rank_dict": copy.deepcopy(rank_dict)},
                          callback=self.inner_parse, )  # 此处提示错误

    def inner_parse(self, response):
        rank_dict = response.meta['rank_dict']
        anime_co = response.xpath("//ul[@id='infobox']//*[string()='动画制作']/../a/text()").extract()
        rank_dict["制作公司"] = anime_co
        yield rank_dict
        self.this_page += 1
        if self.this_page <= 6:
            next_url = "https://bangumi.tv/anime/browser?sort=rank&page=%d" % self.this_page
            yield Request(next_url, self.parse)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

Python爬虫实例——scrapy框架爬取拉勾网招聘信息
2020-09-16 12:47

在本篇【Python爬虫实例——scrapy框架爬取拉勾网招聘信息】中，我们将探讨如何使用Python的Scrapy框架来抓取拉勾网上的Python相关职位信息。首先，我们需要理解整个爬取流程和分析思路。 1. **分析查询结果页**： ...
Python Scrapy多页数据爬取实现过程解析
2020-09-16 17:01

在Python的Web爬虫开发中，Scrapy框架是一个强大的工具，尤其在处理多页数据爬取时。本篇文章将深入解析如何使用Scrapy实现多页数据的爬取，以七牛百科（Qiushibaike）网站为例，展示具体步骤和代码实现。首先，...
python爬虫爬取百度百科页面.zip
2025-01-03 09:49

本次分享的“python爬虫爬取百度百科页面.zip”压缩包，就展示了如何利用Python语言以及相应的库来爬取和处理来自百度百科的信息。百度百科是中国最大的中文百科全书，其内容丰富、涵盖广泛，是爬虫技术学习者非常...
用Python爬取高校导师主页信息_python爬虫_
2021-09-29 04:56

在Python编程领域，爬虫是一项重要的技术，常用于数据挖掘和信息分析。本文将深入探讨如何使用Python爬取高校导师的主页信息，帮助学生或研究人员更有效地筛选和选择合适的指导老师。首先，我们需要了解Python爬虫...
[特殊字符]️Python爬虫实战：使用Scrapy实现网站深度爬取
2025-04-05 13:08

Python爬虫项目的博客广度爬取：收集多个页面的URL，但不深入页面内部。深度爬取：不仅抓取初始页面，还要自动跟随页面中的链接，深入挖掘站点中的结构化内容。...python复制编辑在本博客中，我们围绕Scrapy 实现深度爬虫。
入门Python爬虫：使用Scrapy框架爬取小说教程及代码实例
2023-11-15 17:03

一秋的编程笔记的博客今天我们边学习Scrapy框架边爬取整部小说，让大家在不知不觉的学习过程中使用Scrapy框架完成整部小说的爬取~Scrapy框架是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，是提取结构性数据而编写的应用...
爬虫框架Scrapy（12）爬取动态页面
2021-04-12 14:31

Python@达人的博客文章目录爬取动态页面（一）Splash 渲染引擎1. render.html 端点2. execute 端点3. 常用属性与方法（1）Splash 对象的属性（2）Splash 对象的方法（二）安装 Scrapy-Scrapy1. 安装 splash 服务器2. 安装 Scrapy-...
【进阶】【Python网络爬虫】【16.爬虫框架】scrapy深度爬虫（附大量案例代码）（建议收藏）
2024-01-02 10:26

My.ICBM的博客一、scrapy深度爬取 1. 如何爬取多页的数据（全站数据爬取） 2. 如何爬取深度存储的数据案例 - scrapy多页爬取数据 etting.py items.py spiders deep.py 二、如何提高scrapy的爬取效率三、scrapy发送post请求四、...
python爬虫中的scrapy爬取淘宝前60条商品的相关信息（对淘宝多级页面的爬取详细解读）
2019-07-09 16:02

陈建江！的博客 2，要爬取的信息是：商品名称，商品价格，商品链接，店铺名称，店铺信息（good_name, good_price, good_url, shop_name, shop_url）二，确定网站可以被访问,相关信息可以被提取 1，打开cmd窗口。输入 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月7日

scrapy下 爬虫爬取 子页面详细信息部分 代码出错

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

scrapy下爬虫爬取子页面详细信息部分代码出错

1条回答默认最新