Scrapy的下载中间件返回响应对象时，为什么不会执行 del 操作？

我正在编写一个 Scrapy 对接 Selenium 的下载中间件:

# Spider.py

import scrapy

class TestSpider(scrapy.Spider):
    name = 'test'
    # allowed_domains = ['xxx.com']
    start_urls = ['http://httpbin.org/']

    def parse(self, response):
        print(response)


# Middlewares.py

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from fake_useragent import UserAgent
from scrapy.http import HtmlResponse


class SeleniumMiddleware:
    """对接Selenium"""

    def __init__(self):
        self.browser = webdriver.Chrome()
        self.browser.maximize_window()
        self.wait = WebDriverWait(self.browser, 10)

    @classmethod
    def from_crawler(cls, crawler):
        return cls()

    def process_request(self, request, spider):
        try:
            # 判断哪些链接需要使用selenium程序访问
            if request.url in spider.start_urls:
                self.browser.get(request.url)

                # 等待数据加载
                self.wait.until(EC.presence_of_element_located((
                    By.ID, 'operations-tag-HTTP_Methods')))

                page_text = self.browser.page_source    # 获取包含动态加载的数据

                # 返回Response对象
                return HtmlResponse(url=request.url, body=page_text, encoding='utf-8',request=request, status=200)
        except TimeoutException:
            # 超时
            return HtmlResponse(url=request.url, status=500, request=request)

    def __del__(self):
        print('游览器对象关闭~')
        self.browser.quit()

当我测试程序时，我发现当返回了响应对象，程序没有执行 del 的操作，导致打开的游览器无法如预期那样关闭。

运行结果如下:

当我将返回响应对象的代码注释的时候，程序是会执行 del 操作的。

# 返回Response对象
# return HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request, status=200)

运行结果:

我想知道是什么原因造成这样的结果，在返回响应对象的情况下我该如何进行收尾操作(关闭游览器)？

希望您能帮帮我，感谢。

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Pig_xiaoming 2021-04-23 13:24
关注
已经解决，创建中间件时请使用 `spider_closed`方法并连接到信号：

--skip-- @classmethod def from_crawler(cls, crawler): o = cls() crawler.signals.connect(o.spider_closed, signals.spider_closed) return o --skip-- def spider_closed(self): """Close the browser""" self.browser.quit()

参考: https://github.com/clemfromspace/scrapy-selenium/blob/develop/scrapy_selenium/middlewares.py
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

编辑

预览

报告相同问题？

关注问题

Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 13:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
已经在cmd安装了scrapy，为什么import scrapy还是报错? python
2022-11-09 08:33

回答 2 已采纳在pycharm终端在安装一次就好了：
scrapy 找不到txt文件是为什么？ python
2021-12-14 01:34

回答 1 已采纳 with open(r'ccgpwin_2021\publishTime','r') as f: preservationTime = f.readline() 有帮助请采纳
Scrapy与分布式开发：scrapy下载中间件实现动态切换User-Agent
2024-02-05 04:48

九月镇灵将的博客 scrapy下载中间件实现动态与固定UserAgent 前言关卡：实现动态切换User-Agent scrapy设置User-Agent方式梳理 User-Agent生效梳理为何选择在下载中间件中实现自定义User-Agent下载中间件 结束前言请求头User-...
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 09:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
scrapy 爬虫大量链接返回None不知道为啥 python
2020-05-29 06:50

回答 2 已采纳 200说明成功了，返回None是因为你返回值本来就设置成None，或者没设置返回值导致python默认返回None
python爬虫，为什么使用cookie后会，网页会返回403？ python 有问必答
2021-04-10 12:07

回答 4 已采纳对网站的多次请求时，要模仿浏览器浏览的一样，要有时间间隔不能过于频繁，尽量把请求头写全写对，针对题主的问题，1.csrf_token的获取要从页面分析着手，主要是在页面代码中meta 或其他地方找；二
Scrapy 下载器 中间件(Downloader Middleware)
2022-07-10 23:36

「已注销」的博客 Scrapy 下载器中间件官方文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/downloader-middleware.html 官方英文文档：http://doc.scrapy.org/en/latest/topics/downloader-middleware.html#topics...
python3中使用xpath无法定位，为什么一直返回空列表？ html5 python
2019-01-11 09:23

回答 3 已采纳最后一句会报错，去掉最后一句正常运行，可以参考下我的代码看看问题出现在哪： ```python from lxml import etree import requests url =
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 14:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 08:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
Python - 爬虫之Scrapy
2021-07-13 11:23

GitLqr的博客 Scrapy 是一个 python 编写的，被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。作用：少量的代码，就能够快速的抓取官方文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/ 补充：Scrapy 使用...
【Python爬虫必备—＞Scrapy框架快速入门篇——上】
2021-08-09 03:30

孤寒者的博客【Python爬虫必备—＞Scrapy框架快速入门篇——上】
爬虫日记(28)：scrapy使用中间件调用浏览器
2021-03-29 02:09

caimouse的博客为什么这样说呢，这个就要了解目前WEB开发的两种机制，一种叫做服务端渲染，一种叫做客户端渲染。服务端渲染和客户端渲染本质都是字符串拼接；服务端渲染：在客户端发起请求后，在服务端把数据查询的结果嵌套在...
Python之Scrapy爬虫框架安装及使用详解
2024-03-26 05:44

言程序plus的博客 Scrapy 是用 Python 实现的一个为了采集网站数据、提取结构性数据而编写的应用框架。常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定...
没有解决我的问题, 去提问

悬赏问题

¥15 PADS Logic 原理图
¥15 PADS Logic 图标
¥15 电脑和power bi环境都是英文如何将日期层次结构转换成英文
¥20 气象站点数据求取中~
¥15 如何获取APP内弹出的网址链接
¥15 wifi 图标不见了不知道怎么办上不了网变成小地球了

Scrapy的下载中间件返回响应对象时，为什么不会执行 del 操作？

4条回答 默认 最新

悬赏问题

4条回答默认最新