justsosoc 2020-09-05 13:48 采纳率: 0%
浏览 477
已结题

为什么我的scrapy爬不到数据了

import scrapy

class AnimeSpider(scrapy.Spider):
name = 'anime'
allowed_domains = ['dmzj.com']
# 第一层 爬取所有漫画---首页
start_urls = ['https://www.dmzj.com/category']

def parse(self, response):
    # scrapy内置解析数据 5个大分类的名字 span
    span_list=response.xpath('//div[@class="public_com"]/span[2]')
    # print(span_list)
    # 遍历5个大分类
    for span in span_list:
        item={}
        item['category'] = span.xpath('./text()').extract_first()
        # 根据大分类取小分类
        li_list = span.xpath('./following-sibling::*/li/a')
        # li_list1 =span.xpath('./following-sibling::*/span/li/a')
        # for li1 in li_list1:
        #     item['style'] = li1.xpath('./text()').extract_first()
        #     print(item)
        for li in li_list:
            item['small_category'] = li.xpath('./text()').extract_first()
            small_link = 'http:'+li.xpath('./@href').extract_first()
         #   print('*' * 100)
           # print(item)

直到这都可以爬到想要的数据,下面就不行了

            yield scrapy.Request(small_link, callback=self.parse_anime, meta={'anime': item})
        # 解析漫画信息

def parse_anime(self,response):
    item = response.meta.get('anime')
    # 解析所有的漫画, 18
    list_anime = response.xpath('//div/ul[@class="list_con_li"]/li')
    # print(list_anime)

我在这里试过输出,也没有

    # 遍历解析18本漫画的详细信息
    for anime in list_anime:
        # 漫画名
        item['name'] = anime.xpath('.//h3/a/text()').extract_first()
        # 作者
        item['author'] = anime.xpath('.//p[1]/text()').extract_first()
        # 类型
        item['style'] = anime.xpath('.//p[2]/text()').extract_first()
        # 状态
        item['status'] = anime.xpath('.//p[3]/text()').extract_first()
        # 更新
        item['renew'] = anime.xpath('.//p[4]/text()').extract_first()
        # 图片地址
        item['default_image'] = anime.xpath('.//a[@class="comic_img"]/img/@src').extract_first()
        print(item)
  • 写回答

1条回答

      报告相同问题?

      相关推荐 更多相似问题

      悬赏问题

      • ¥20 webapi项目的XUnitTest单元测试怎么注入token和自写拦截器(filter)(语言-c#)
      • ¥15 exe和xml必须在一个文件夹才能打开exe文件
      • ¥50 pycharm打包项目,包含图片和声音资源
      • ¥15 房号如何排序,sql或算法
      • ¥15 macOS使用IDEA 2022.2.4打包JDK6项目报错
      • ¥20 OpenCV-Python简单轮廓寻找
      • ¥20 使用matlab进行含参数的最优化求解及数值模拟
      • ¥20 MATLAB找出一维变量中的局部极大值和局部极小值,并进行运算
      • ¥15 有Chang求三维杆单元几何非线性分析matlab代码
      • ¥50 使用unity easyar录屏功能。录屏视频整体色调很暗