scrapy+selenium怎么添加代理？中间件创建的driver在哪里关闭？

找不到改在哪里关闭driver，代理ip这样设置也报错，只有一个爬虫，driver在爬虫创建和中间件常见有什么不同，单线程和多线程中创建driver又有什么不同

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        ip_list = self.get_ip()
        # request.meta['proxy'] = 'http://'+choice(ip_list)
        self.driver.get(request.url)
        sleep(2)
        response=HtmlResponse(request.url,body=self.driver.page_source,request=request,encoding='utf8')
        # print(self.driver.page_source)
        # self.driver.quit()
        return response

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-05-01 16:12
关注
文章：scrapy 爬虫之selenium中间件的使用(爬取简书内容) 中也许有你想要的答案，请看下吧
除此之外, 这篇博客: Scrapy中selenium的应用-----并通过京东图书书籍信息爬取项目进行实操！中的 ⑦拓展：通过编写中间件实现IP池中使用随机IP： 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
本人使用的是webapi，直接连接至快代理中的隧道代理！操作简单。只需在中间件中加入以下代码，并在快代理中将你本机外网IP加入白名单即可直接使用！

# 在middlewares.py文件中加入以下中间件即可： #IP池 from scrapy import signals from w3lib.http import basic_auth_header class ProxyDownloaderMiddleware: def process_request(self, request, spider): proxy = "tps191.kdlapi.com:15818" request.meta['proxy'] = "http://%(proxy)s" % {'proxy': proxy} # 用户名密码认证 # request.headers['Proxy-Authorization'] = basic_auth_header('${username}', '${password}') # 白名单认证可注释此行 return None

注意：如果出现Bug，或者没出你也为了预防，在settings.py中进行如下配置：
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
2024-05-31 21:24

学网安的A的博客 Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）
使用 Scrapy + Selenium 爬取动态渲染的页面
2025-02-13 16:00

测试涛叔的博客那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值. 本文分享scrapy的介绍和如何配合selenium实现动态网页的爬取。它...
Scrapy+Selenium项目实战--携程旅游信息爬虫
2025-01-13 20:49

2401_89317544的博客携程（you.ctrip.com）是一个提供旅游信息的网站，但它的部分内容可能是动态加载的，难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具，模拟浏览器行为进行数据的获取和处理。
Scrapy+Selenium小爬虫项目
2024-07-25 20:42

世界毁灭！的博客小窗口爬取翻页跟全屏翻页坐标不一样（有的网站小窗口会自适应改变比例所以会漏掉一些懒加载的图片），目前不清楚怎么在小窗口下解决这个问题。小窗口使用模拟下拉翻页的时候老是会忽略一些懒加载的图片。解决方法：...
【python爬虫】淘宝搜索爬虫scrapy + selenium
2025-06-12 15:08

景元元大猫猫的博客 2) Selenium中间件配置，实现动态页面渲染；3) 搜索逻辑实现（关键词搜索、翻页设置）；4) 商品信息提取（名称、价格、链接）；5) 数据存储为Excel文件。重点解决了JavaScript渲染页面的抓取问题，详细说明了请求...
scrapy-selenium:Scrapy中间件使用Selenium处理javascript页面
2021-04-30 08:44

Scrapy中间件可使用Selenium处理javascript页面。安装 $ pip install scrapy-selenium 您应该使用python> = 3.6 。您还将需要一种与Selenium。配置添加要使用的浏览器，驱动程序可执行文件的路径，以及将要传递...
Python爬虫【二十六章】爬虫高阶：Scrapy+Selenium分布式动态爬虫架构实践
2025-07-08 11:00

程序员_CLUB的博客本文通过的组合，解决了动态页面爬取Selenium实现动态渲染，突破JavaScript限制。Scrapy提供异步框架，提升请求调度效率。Celery实现任务分布式处理，支持弹性伸缩。该架构已在实际项目中验证，可高效处理日均百万级...
Python爬虫（26）Python爬虫高阶：Scrapy+Selenium分布式动态爬虫架构实践
2025-05-08 14:22

一个天蝎座白勺程序猿的博客技术方案选型包括Scrapy、Selenium和Scrapy-Redis。文章详细介绍了系统架构设计、核心组件交互、环境准备与项目搭建、核心模块实现，以及电商平台全站爬虫开发的实战案例。此外，还提出了高级优化策略，如浏览器资源...
2024年Scrapy+Selenium项目实战--携程旅游信息爬虫
2024-05-01 15:20

2401_84563287的博客携程（you.ctrip.com）是一个提供旅游信息的网站，但它的部分内容可能是动态加载的，难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具，模拟浏览器行为进行数据的获取和处理。
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
2022-04-13 01:08

JayceeeQAQ的博客 python爬虫–Scrapy框架前言框架结构 start -> 爬虫提交链接request给middlewares -> middlewares发送request给网页 -> middlewares发送response给爬虫 ->爬虫解析response返回的对象 -> pipeline...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 5月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月1日

scrapy+selenium怎么添加代理？中间件创建的driver在哪里关闭？

1条回答 默认 最新

问题事件

1条回答默认最新