关于爬虫遇到的问题，请问一下

main文件代码：

import yaml
import json
import base64
import requests
import random
from scrapy import Spider
from ..items import FirstItem


class MainSpider(Spider):
    name = "main"
    start_urls = ["https://yftx-test.xailife.com/login?redirect=%2Findex"]



    def parse(self, response):
        name = response.xpath('//div[@class="charts-left-right"]/div')
        name_a = response.xpath('//section[@class="app-main"]/div/div[2]/div[2]/div[2]/div/div[3]/div/div/div/div[2]/div')
        url = 'https://yftx-test.xailife.com'
        # for xe in name:
        #     imgbase = xe.xpath('./div/img/@src')
        #     img = imgbase.extract()
        #     for img_a in img:
        #         random_string = random.randint(1, 1000)
        #         base64_split = str(img_a).split(',',1)
        #         base64_str = base64_split[1]
        #         base64_decode = base64.b64decode(base64_str)
        #         with open(rf"D:\python\first\first\img\img{random_string}.png","wb") as f:
        #             f.write(base64_decode)

        for tubiao in name_a:
            items = FirstItem()
            random_stringa = random.randint(1, 1000)
            tubiao_a = tubiao.xpath('./div/img/@src')
            tubiao_b = tubiao_a.extract()
            print('获取的图片路径：',tubiao_b)
            for tubiao_c in tubiao_b:
                url_jion = url + tubiao_c
                response = requests.get(url_jion).content
                items['tubiao'] = response
                items['random_a'] = random_stringa
                print('次数：')
        return items

pipelin文件代码：

from itemadapter import ItemAdapter


class FirstPipeline(scrapy.Item):
    def process_item(self, item, spider):
        print(item)
        adaoter = ItemAdapter(item)
        t = adaoter.get('tubiao')
        y = adaoter.get('random_a')
        print("随机数：", y)
        with open(rf"D:\python\first\first\img\img{y}.png", "wb") as f:
            f.write(t)

为什么这么写，无法获取到图片？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-03-12 16:59
关注
引自免费微信小程序：皆我百晓生

在您提供的代码中，存在一些问题导致图片无法正确获取并保存。首先，我们来分析MainSpider中的parse方法：

你尝试从响应中提取图片URL，并使用requests.get直接下载图片内容到items['tubiao']。但是，在pipeline中，你将items['tubiao']当作一个文件流进行处理并写入文件，而实际上它是一个字节串。

解决办法是在Spider中先将图片内容转换为合适格式再存入item中，例如：

for tubiao in name_a: items = FirstItem() random_stringa = random.randint(1, 1000) tubiao_a = tubiao.xpath('./div/img/@src') tubiao_b = tubiao_a.extract_first() # 使用extract_first而不是extract，假设只有一张图 url_jion = url + tubiao_b response = requests.get(url_jion) if response.status_code == 200: img_content = response.content items['tubiao'] = img_content items['random_a'] = random_stringa print('次数：') yield items # 将itemsyield出来以供Pipeline处理

接下来是FirstPipeline部分：

您的FirstPipeline类继承了scrapy.Item，但应该继承自scrapy.pipeline.ItemPipeline。

修改后的pipeline应如下所示：

from itemadapter import ItemAdapter from scrapy.exceptions import DropItem class FirstPipeline: def process_item(self, item, spider): adapter = ItemAdapter(item) t = adapter.get('tubiao') if t is not None: y = adapter.get('random_a') with open(rf"D:\python\first\first\img\img{y}.png", "wb") as f: f.write(t) else: raise DropItem(f"Missing 'tubiao' for item {item!r}") return item

通过上述调整，当item在pipeline中被处理时，正确的图片内容会被写入到磁盘上指定的文件路径中。同时，请确保您的Scrapy项目已启用此pipeline（在settings.py中配置ITEM_PIPELINES）。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
关于爬虫selenium遇到的问题 python 爬虫
2022-08-10 20:28

回答 3 已采纳因为网址更新了，现在是iframe[title = 'livere-comment']
爬虫遇到问题（POST请求） python 爬虫
2021-08-08 17:22

回答 2 已采纳你可以调用百度的api，我以前用过，只用输入你要说的话，然后对应一个字典设置你的账户秘钥和语音要求，就会自动上传网站生成可以参考这个 https://blog.csdn.net/prajna00
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
【爬虫】爬虫遇到的问题 python 有问必答
2021-08-23 15:11

回答 7 已采纳看起来确实像base64呀emm你把输出都导出到本地html文件里面然后打开试试看?有帮助望采纳
用python做爬虫遇到的问题 python 爬虫
2021-09-11 14:26

回答 2 已采纳
Python院士爬虫遇到了问题 python 爬虫
2022-06-12 23:13

回答 1 已采纳 except后面可以加 e，然后打印e。类似 except Exception as e: print("未知异常：%s" % e) 另外，你这样创建启动进程，似乎有点多。最
python爬虫学习文档，包含爬虫基础，加密算法，并发编程，逆向等
2024-01-18 10:28

在爬虫过程中，可能会遇到加密的数据，如登录凭证、API接口的密钥等。理解常见的加密算法，如MD5、SHA系列、AES等，有助于解密和验证数据。"加密算法.md"文件很可能是关于这些加密方法的详细介绍，对于安全爬取和...
学习爬虫遇到问题，请各位提供思路爬虫
2022-07-15 15:18

回答 2 已采纳你看这："//[@id="contentTable"]/tbody" ，你这里是不是有4个双引号，从左往右开始，第一个双引号找离它最近的一个双引号配成一对。"//[@id=""]/tbody"也是一队
爬虫一直遇到返回空表格的问题 python 爬虫
2022-03-12 23:06

回答 1 已采纳如果你确定soup没问题的话，那就是你的soup.find_all那里出了问题，你可以单独打印一下看看，应该是你写的条件没有匹配到
爬虫爬网站遇到编码器问题 python 爬虫
2023-01-19 16:14

回答 4 已采纳成功了，加这一句
peer_编程代码_地震波爬虫_peer_
2021-10-03 16:38

编程代码是程序员使用特定编程语言编写的一系列指令，用于实现特定功能或解决特定问题。在这个案例中，"peer1"和"peer2.txt"可能是两个不同的代码模块或者爬虫脚本，它们负责从"peer"网站上抓取信息。 "地震波爬虫...
关于爬虫爬取页数的问题 json python 爬虫
2022-09-14 23:27

回答 2 已采纳 import requests import re import json import time fh = open('测试写入.txt', 'a') for i in range(1, 20,
Python-Crawlab基于Celery的爬虫分布式爬虫管理平台支持多种编程语言以及多种爬虫框架
2019-08-10 07:30

Crawlab是一个高效、灵活的爬虫管理平台，它利用Celery作为其核心的分布式任务调度系统，旨在为数据采集提供一个集中的控制台，支持多种编程语言和多种爬虫框架，极大地提高了爬虫项目的管理和执行效率。 ### ...
基于Go语言的爬虫项目
2021-04-04 22:55

首先，我们来关注项目所采用的主要编程语言——Go（Golang）。Go语言是由Google开发的一种静态类型的、编译型的、并发型且具有垃圾回收功能的编程语言。它的设计目的是提高软件的开发效率和运行性能。Go语言以其简洁...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月12日

悬赏问题

¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)
¥15 clousx6整点报时指令怎么写
¥30 远程帮我安装软件及库文件
¥15 关于#自动化#的问题：如何通过电脑控制多相机同步拍照或摄影（相机或者摄影模组数量大于60），并将所有采集的照片或视频以一定编码规则存放至规定电脑文件夹内
¥20 深信服vpn-2050这台设备如何配置才能成功联网？
¥15 Arduino的wifi连接，如何关闭低功耗模式？
¥15 Android studio 无法定位adb是什么问题？
¥15 C#连接不上服务器，

关于爬虫遇到的问题，请问一下

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新