scrapy框架，爬虫，中间件

##spider代码
import scrapy


class MiddleSpider(scrapy.Spider):
    name = "middle"
    #allowed_domains = ["www.xxx.com"]
    start_urls = ["http://www.baidu.com/s?wd=ip"]

    def parse(self, response):
        page_text=response.text

        with open("ip.html","w",encoding="utf-8") as fp:
            fp.write(page_text)



##scrapy中间件
from scrapy import signals

# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter

import random


class MiddleproDownloaderMiddleware:
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
    user_agent_list=['Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
         ]
    PROXY_http=["114.231.42.244","183.236.232.160"]
    PROXY_https=["120.83.49.90:9000","95.189.112.214:35508"]
    #拦截请求
    def process_request(self, request, spider):
        request.headers["User-Agent"]=random.choice(self.user_agent_list)
        #验证代理的操作是否会生效
        request.meta["proxy"]="http://182.139.110.18"
        return None
    #拦截所有响应
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response
    #拦截异常请求
    def process_exception(self, request, exception, spider):
        if request.url.split(":")[0] == "http":
        #代理
            request.meta["proxy"]="http://"+random.choice(self.PROXY_http)
        else:
            request.meta["proxy"]="https://"+random.choice(self.PROXY_https)

        return request#将修正后的请求对象重新请求发送
出现如下报错
2023-05-30 18:45:14 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET http://www.baidu.com/s?wd=ip> (failed 3 times): TCP connection timed out: 10060: 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
青霄 2023-05-30 18:52
关注
测试下你的代理是否可用

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python的scrapy超级爬虫框架设计源码
2024-09-23 04:18

Python作为一种简洁而强大的编程语言，其在爬虫开发中扮演着极其重要的角色。而Scrapy框架是Python中最著名的爬虫框架之一，它被广泛应用于大规模数据抓取的项目中。本项目中所提及的“基于Python的scrapy超级爬虫...
Scrapy 爬虫框架全解析
2024-12-12 22:37

狂宠粉博主的博客基本定义Scrapy 是一个用 Python 编写的开源网络爬虫框架。它旨在快速、高效地抓取网页数据，可处理大规模的数据抓取任务。基于 Twisted 异步网络库构建，能够并发地处理多个请求，大大提高了数据抓取的速度。遵循 ...
Scrapy Web爬虫框架源代码
2021-03-18 12:16

Scrapy是一个强大的Web爬虫框架，它以Python语言编写，基于Twisted异步网络库，设计目的是为了简化网络数据的抓取和处理过程。在深入理解Scrapy之前，我们需要先了解一些基本概念。 **Web爬虫**：Web爬虫是一种自动...
Scrapy Web爬虫框架
2020-08-16 08:45

Scrapy是一个强大的Web爬虫框架，它以Python编程语言为核心，构建在Twisted异步网络库之上，使得爬取大规模网站变得更加高效和便捷。在这个框架中，开发者无需从头构建爬虫的基础架构，只需专注于定制特定的爬虫逻辑...
Python编程使用Scrapy爬虫框架爬取新浪微博平台巴黎奥运会乒乓球女单决赛的舆论数据供学习使用
2025-05-23 11:08

本项目聚焦于使用Python编程语言结合Scrapy爬虫框架，对新浪微博平台在2024年巴黎奥运会乒乓球女单决赛期间（8月1日至8月10日）产生的舆论数据进行爬取。通过设定特定关键词，如“巴黎奥运会”、“乒乓球女单”、...
Scrapy Web爬虫框架 v1.2.0
2020-12-04 13:21

Scrapy是一个强大的网络爬虫框架，专为Python编程语言设计，其版本v1.2.0带来了许多实用的功能和优化。Scrapy的核心设计理念是让用户能够快速地构建自定义的网络爬虫，通过简单的配置和定制就能高效地抓取网页内容。...
Scrapy Web爬虫框架 v1.5.0
2020-11-26 12:27

Scrapy框架由多个组件组成，包括Spiders（蜘蛛）、Item Pipeline、Downloader Middleware（下载器中间件）、Request/Response对象以及Settings（配置）。开发者只需专注于编写Spider类，定义如何爬取目标网站和解析...
Scrapy Web爬虫框架 v1.3.2
2020-12-02 08:47

Scrapy是一个强大的Web爬虫框架，专为Python开发者设计，版本v1.3.2提供了稳定和高效的数据..."scrapy-1.3.2"可能是Scrapy框架的安装包，你可以通过解压后使用Python的`setup.py`脚本来安装和管理这个版本的Scrapy。
Scrapy Web爬虫框架 v2.0.1
2020-08-18 07:56

Scrapy是一个强大的Web爬虫框架，专为Python编程语言设计，其版本v2.0.1带来了更多优化和改进。这个框架充分利用了Twisted异步网络库，使得爬虫在处理大量网页时能够高效地并发执行，提高了数据抓取的速度和效率。 ...
基于Python Scrapy框架的链家二手房爬虫设计源码
2024-10-01 12:15

开发者在利用这些源码时，需要具备一定的Python编程基础以及对Scrapy框架的了解。项目中提供的爬虫代码，不仅可以帮助研究人员或商业分析者快速获得大量有效的二手房数据，还能为学习Python爬虫开发提供了一个很好的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月30日

scrapy框架，爬虫，中间件

2条回答 默认 最新

问题事件

2条回答默认最新