为什么我的scrapy爬不到数据了

import scrapy

class AnimeSpider(scrapy.Spider):
name = 'anime'
allowed_domains = ['dmzj.com']
# 第一层爬取所有漫画---首页
start_urls = ['https://www.dmzj.com/category']

def parse(self, response):
    # scrapy内置解析数据 5个大分类的名字 span
    span_list=response.xpath('//div[@class="public_com"]/span[2]')
    # print(span_list)
    # 遍历5个大分类
    for span in span_list:
        item={}
        item['category'] = span.xpath('./text()').extract_first()
        # 根据大分类取小分类
        li_list = span.xpath('./following-sibling::*/li/a')
        # li_list1 =span.xpath('./following-sibling::*/span/li/a')
        # for li1 in li_list1:
        #     item['style'] = li1.xpath('./text()').extract_first()
        #     print(item)
        for li in li_list:
            item['small_category'] = li.xpath('./text()').extract_first()
            small_link = 'http:'+li.xpath('./@href').extract_first()
         #   print('*' * 100)
           # print(item)

直到这都可以爬到想要的数据，下面就不行了

            yield scrapy.Request(small_link, callback=self.parse_anime, meta={'anime': item})
        # 解析漫画信息

def parse_anime(self,response):
    item = response.meta.get('anime')
    # 解析所有的漫画, 18
    list_anime = response.xpath('//div/ul[@class="list_con_li"]/li')
    # print(list_anime)

我在这里试过输出，也没有

    # 遍历解析18本漫画的详细信息
    for anime in list_anime:
        # 漫画名
        item['name'] = anime.xpath('.//h3/a/text()').extract_first()
        # 作者
        item['author'] = anime.xpath('.//p[1]/text()').extract_first()
        # 类型
        item['style'] = anime.xpath('.//p[2]/text()').extract_first()
        # 状态
        item['status'] = anime.xpath('.//p[3]/text()').extract_first()
        # 更新
        item['renew'] = anime.xpath('.//p[4]/text()').extract_first()
        # 图片地址
        item['default_image'] = anime.xpath('.//a[@class="comic_img"]/img/@src').extract_first()
        print(item)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
临界状态 2020-09-05 14:58
关注
small_link = 'http:'+li.xpath('./@href').extract_first()
这里错了 response.urljoin(li.xpath('./@href').extract_first()）

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

为什么我的scrapy爬不到数据了 python
2020-09-05 13:48

回答 1 已采纳 small_link = 'http:'+li.xpath('./@href').extract_first() 这里错了 response.urljoin(li.xpath('./@href')
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 14:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
用scrapy爬到一半时停止并报错invalid session id python 爬虫
2022-01-04 16:58

回答 1 已采纳这位博友情况跟你的有点类似，你可以借鉴一下 https://blog.csdn.net/weixin_35757704/article/details/120706276
Python之scrapy爬虫文件
2022-11-29 12:36

此文件可能从基础的Python爬虫概念入手，介绍为什么选择Scrapy作为爬虫工具，以及Python在爬虫领域的优势。可能会涵盖爬虫的基本工作流程，如请求网页、解析HTML、提取数据等，并对比其他Python爬虫库（如...
请问Python爬虫如何把爬取数据存入csv文件中 python 开发语言有问必答爬虫
2021-11-21 21:19

回答 1 已采纳你用open打开csv文件，然后以字符串格式写入就行了，每个数据之间用英文逗号隔开即可
前程无忧网址数据练习抓取，为什么会返回空值(语言-python) python 有问必答爬虫
2021-12-05 21:39

回答 1 已采纳你输出下str_data 看看源代码中有你需要爬取的内容吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。
scrapy存到mysql查询无数据 mysql python 数据挖掘测试用例
2020-03-04 16:49

回答 1 已采纳在pipelines文件的内部，打印item，看看数据到底有没有获取到连接数据库成功后，打印一个数据库内部的数据，看看是不是连接成功大概率你没搞到数据，所以什么也没有写入
利用scrapy将爬到的数据保存到mysql（防止重复）
2021-01-20 05:06

本文主要给大家介绍了关于scrapy爬到的数据保存到mysql（防止重复）的相关内容，分享出来供大家参考学习，下面话不多说了，来一起看看详细的介绍吧。 1.环境建立 1.使用xmapp安装php, mysql ,phpmyadmin 2....
在以瀑布流方式翻页的网站,使用scrapy网络爬虫,但是只爬取了第一页数据,没有爬取第二页. python 爬虫
2021-09-05 19:18

回答 2 已采纳那叫ajax，
scrapy中把数据存储到MongoDB，运行也没出错怎么查找不到数据库呢？？？ mongodb python
2020-06-05 16:06

回答 1 已采纳 1.密码设置了吗 2.127.0.0.1改成localhost试试 3.我没招了
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 16:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
Python爬虫-scrapy-城市二手房数据爬取与保存
2023-01-09 12:35

本项目专注于利用Scrapy框架来实现这一目标，Scrapy是一个强大的Python爬虫框架，它提供了丰富的功能，使得网络数据抓取变得更加便捷和模块化。首先，我们要了解Scrapy的基础架构。Scrapy由多个组件组成，如...
爬虫爬出的数据，print输出可以全部输出，但是写入CSV文件时只能写最后一行 python 爬虫
2022-02-22 08:10

回答 3 已采纳 # -*- coding:utf-8 -*- import requests import csv,re url1 = 'http://category.dangdang.com/' url2
为什么要用scrapy爬虫库？而不是纯python进行爬虫？
2024-03-14 22:44

氏族归来的博客 Scrapy是一个使用Python编写的开源和协作的web爬虫框架，它被设计用于爬取网页数据并从中提取结构化数据。Scrapy的强大之处在于其广泛的功能和灵活性，可以让开发者高效地构建复杂的爬虫。下面是Scrapy的一些优点，...
Python-Scrapy爬虫的数据验证状态监控消息提醒扩展
2019-08-12 05:21

Scrapy是一个强大的Python爬虫框架，它为开发者提供了构建高效、可扩展的网络爬虫的工具。在实际的爬虫项目中，数据验证、状态监控和消息提醒是至关重要的环节，确保了爬取数据的质量和系统的稳定性。"Python-Scrapy...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

为什么我的scrapy爬不到数据了

1条回答 默认 最新

悬赏问题

1条回答默认最新