scrapy中的ImagesPipeline无法对图片进行储存

爬虫文件

class Dm5Spider(scrapy.Spider):
    name = 'dm5'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://www.dm5.com/manhua-list/']
    url = 'http://www.dm5.com/manhua-list-p{}/'

    def parse(self, response):
        li_list = response.xpath('/html/body/section[2]/div/ul/li')
        for li in li_list:
            comic_title = li.xpath('./div/div[1]/h2/a/text()').extract_first()
            comic_url = 'http://www.dm5.com/' + li.xpath('./div/div[1]/h2/a/@href').extract_first()
            item = Dm5ProItem()
            item['comic_title'] = comic_title
            yield scrapy.Request(comic_url, callback=self.chapter_parse, meta={'item': item})

    def chapter_parse(self, response):
        li_list = response.xpath('//*[@id="detail-list-select-1"]/li')
        for li in li_list:
            chapter_name = li.xpath('./a/text()').extract_first()
            chapter_url = 'http://www.dm5.com/' + li.xpath('./a/@href').extract_first()
            item = response.meta['item']
            item['chapter_name'] = chapter_name.strip()
            yield scrapy.Request(chapter_url, callback=self.content_parse, meta={'item': item})

    def content_parse(self, response):
        page_text = response.text
        cid = re.findall('var DM5_CID=(.+?);', page_text)[0].strip()
        page_count = re.findall('var DM5_PAGEPCOUNT =(.+?);', page_text)[0].strip()
        _mid = re.findall('var DM5_MID=(.+?);', page_text)[0].strip()
        _dt = re.findall('var DM5_VIEWSIGN_DT="(.+?)";', page_text)[0].strip()
        _sign = re.findall('var DM5_VIEWSIGN="(.*?)";', page_text)[0].strip()
        page = 1
        while page < int(page_count):
            url = f'{response.url}chapterfun.ashx?cid={cid}&page=1&key=&language=1&gtk=6&_cid={cid}&_mid={_mid}&_dt={_dt}&_sign={_sign}'
            yield scrapy.Request(url,callback=self.content_parse_2,meta={'item':response.meta['item']})

    def content_parse_2(self, response):
        js_code = response.text
        img_urls = execjs.eval(js_code)
        img_url = img_urls[0]
        item = response.meta['item']
        item['src'] = img_url
        img_name = wurl.parse_url(img_url).path.split('/')[-1]
        item['img_name'] = img_name
        yield item

items

class Dm5ProItem(scrapy.Item):
    # define the fields for your item here like:
    comic_title = scrapy.Field()
    chapter_name = scrapy.Field()
    src = scrapy.Field()
    img_name = scrapy.Field()

settings


import os
BOT_NAME = 'dm5pro'
SPIDER_MODULES = ['dm5pro.spiders']
NEWSPIDER_MODULE = 'dm5pro.spiders'
LOG_LEVEL = 'ERROR'

DEFAULT_REQUEST_HEADERS = {
    'user-agent' : "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20",
    'referer': 'http://www.dm5.com/'

}
IMAGES_STORE = os.path.join(os.path.dirname(os.path.dirname(__file__)), 'images')

ITEM_PIPELINES = {
    'dm5pro.pipelines.Dm5ProPipeline': 300,
}
ROBOTSTXT_OBEY = False

pipelines


class Dm5ProPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        print(f'{item["src"]}正在下载~~')
        yield scrapy.Request(item['src'], meta={'item': item})

    def file_path(self, request, response=None, info=None):
        comic_title = request.meta['item']['comic_title'] #获取动漫名字
        image_store = settings.IMAGES_STORE             # 获取settings中的路径
        comic_title_path = os.path.join(image_store, comic_title) # 对路径跟动漫名字进行拼接
        chapter_name = request.meta['item']['chapter_name'] # 获取章节名称
        chapter_name_path = os.path.join(comic_title_path, chapter_name) # 对路径跟章节名称进行拼接
        if not os.path.exists(chapter_name_path):  # 如果没有这个文件夹
            os.makedirs(chapter_name_path)        # 对这个文件夹进行创建
        # image_name = path.replace("full/", "")
        img_name = request.meta['item']['img_name'] # 获取当前图片名称
        image_path = os.path.join(chapter_name_path, img_name) #对路径跟图片名称进行拼接
        print(image_path) 
        # PycharmProjects/爬虫练手/2.100个简单练手的网站/dm5动漫/dm5pro/images/成为反派的继母/第0话/1_1732.jpg

        return image_path  # 将路径返回

    def item_completed(self, results, item, info):
        return item

链接打印为：PycharmProjects/爬虫练手/2.100个简单练手的网站/dm5动漫/dm5pro/images/成为反派的继母/第0话/1_1732.jpg

但是无法对jpg图片进行储存，到第0话就不在创建图片了

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2020-09-19 00:08
关注
https://blog.csdn.net/sc_lilei/article/details/79587698

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Scrapy ImagesPipeline下载图片
2017-12-20 19:33

ImagesPipeline是Scrapy内置的图片处理管道，它工作在Scrapy爬虫抓取数据之后，对下载到的图片进行一系列操作，如验证、缩略图生成、重命名、存储等。通过配置，我们可以自定义图片的存储路径、文件名格式、以及是否...
scrapy_爬虫python_tailua9_python_百度图片爬虫_scrapy_
2021-10-02 04:23

Scrapy是一个强大的Python爬虫框架，它为开发者提供了一套高效、灵活的工具，用于爬取网站并提取...通过学习和实践这样的项目，可以提升对Web爬虫和Python编程的理解，同时也能掌握如何利用Scrapy进行大规模数据采集。
Python爬虫—scrapy框架
2022-08-31 15:41

白天数糖晚上数羊的博客 Python爬虫—scrapy框架
使用Scrapy抓取图片网站的图片：完整教程与实战案例
2025-01-20 11:04

Python爬虫项目的博客 Scrapy是一个开源的Python爬虫框架，专门用于大规模数据抓取和处理。它可以帮助开发者快速、简便地抓取网站上的数据，并且能够高效地处理网站的请求、响应、数据解析以及存储。请求与响应的处理。数据提取（如：从...
深入解读 Scrapy 框架原理与源码
2024-08-06 10:59

Switch616的博客以上内容详细解读了 Scrapy 框架的运行原理、底层源码、中间件和自定义功能，涵盖了从请求生成、响应处理到数据存储的完整流程。
python使用scrapy爬取图片
2019-06-04 16:06

嗨学编程的博客在前面的章节中都介绍了scrapy如何爬取网页数据，今天介绍下如何爬取图片。下载图片需要用到ImagesPipeline这个类，首先介绍下工作流程： 1 首先需要在一个爬虫中，获取到图片的url并存储起来。也是就是我们项目...
Scrapy框架
2024-09-03 20:19

ByeTheGo的博客 image_urls用来存储图片的链接，images是由开发者把数据爬取下来后添加的使用scrapy.pipelines.images.ImagesPipeline来作为数据保存的pipeline 在settings.py中设置IMAGES_STORE来定义图片下载的路径如果想要有...
python scrapy ，几行代码实现一个【搜狗图片】下载器
2021-11-10 10:04

梦想橡皮擦的博客又到了放松时刻了，那我们在学习一下如何用 scrapy 下载图片吧。目标站点说明这次要采集的站点为搜狗图片频道，该频道数据由接口直接返回，接口如下： ...category=feed&start=10&len=10 ...
python使用Scrapy框架进行汽车之家宝马图片下载爬虫
2019-05-29 16:45

嗨学编程的博客 Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是： FilePipeline ImagesPipeline （2）、使用Scrapy内置的下载方法的好处 1、可以有效避免重复下载 2、方便指定下载路径 3、方便格式转换...
Scrapy框架实战（四）：下载京东外设的商品图片
2020-12-17 21:22

棒棒编程修炼场的博客 Scrapy 中提供了可以专门处理下载的 Pipeline (项目管道)，其中包括 Files Pipeline(文件管道) 以及 Images Pipeline（图像管道）。两种项目管道的使用方式相同，只是在使用 Images Pipeline （图像管道）时可以将...
没有解决我的问题, 去提问

scrapy中的ImagesPipeline无法对图片进行储存

1条回答 默认 最新

1条回答默认最新