scrapy使用代理后出现字符格式错误

scrapy使用代理后，报错：

2023-02-28 18:52:18 [scrapy.core.scraper] ERROR: Error downloading <GET http://guba.eastmoney.com/list,300059_1.html>
Traceback (most recent call last):
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\twisted\internet\defer.py", line 1693, in _inlineCallbacks
    result = context.run(
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\twisted\python\failure.py", line 518, in throwExceptionIntoGenerator
    return g.throw(self.type, self.value, self.tb)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\middleware.py", line 52, in process_request
    return (yield download_func(request=request, spider=spider))
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\utils\defer.py", line 73, in mustbe_deferred
    result = f(*args, **kw)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\handlers\__init__.py", line 79, in download_request
    return handler.download_request(request, spider)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\handlers\http11.py", line 72, in download_request
    return agent.download_request(request)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\handlers\http11.py", line 363, in download_request
    agent = self._get_agent(request, timeout)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\handlers\http11.py", line 327, in _get_agent
    proxyScheme, proxyNetloc, proxyHost, proxyPort, proxyParams = _parse(proxy)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\webclient.py", line 39, in _parse
    return _parsed_url_args(parsed)
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\core\downloader\webclient.py", line 20, in _parsed_url_args
    host = to_bytes(parsed.hostname, encoding="ascii")
  File "C:\Users\18310\AppData\Local\Programs\Python\Python310\lib\site-packages\scrapy\utils\python.py", line 111, in to_bytes
    return text.encode(encoding, errors)
UnicodeEncodeError: 'ascii' codec can't encode character '\ufeff' in position 0: ordinal not in range(128)

我的中间件为：

class RandomProxyMiddleware(HttpProxyMiddleware):
        # proxy从settings.py中读取PROXY
    def __init__(self, auth_encoding='utf-8', proxy_list=None):
        self.proxy = settings.PROXY


    def process_request(self, request, spider):
        # 随机选择一个代理IP
        proxy = random.choice(self.proxy)
        # 判断代理IP是否可用
        if self.check_proxy(proxy):
            print('当前使用的代理IP是：', proxy)
            request.meta['proxy'] = proxy

        else:
            self.process_request(request, spider)

    def check_proxy(self, proxy):
        # 判断代理IP是否可用
        try:
            # 设置超时时间为3秒
            requests.get('https://www.eastmoney.com/', proxies={'http': proxy}, timeout=3)
            return True
        except:
            return False

使用的Ip可以访问“'https://www.eastmoney.com/%E2%80%9D
请问这个错误该怎么解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

「已注销」 2023-02-28 19:08

关注

参考GPT和自己的思路，这个错误可能是因为代理IP中包含了非ASCII字符，而Scrapy使用了'ascii'编码对其进行编码，因此出现了Unicode编码错误。你可以尝试使用其他编码，如'utf-8'或'gbk'，来编码代理IP的字符串。

你可以在代理IP读取的部分进行修改，例如：

class RandomProxyMiddleware(HttpProxyMiddleware):

    def __init__(self, auth_encoding='utf-8', proxy_list=None):
        self.proxy = settings.PROXY

        # 将代理IP编码为'utf-8'格式
        self.proxy = [p.encode('utf-8') for p in self.proxy]

    def process_request(self, request, spider):
        # 随机选择一个代理IP
        proxy = random.choice(self.proxy)
        # 判断代理IP是否可用
        if self.check_proxy(proxy):
            print('当前使用的代理IP是：', proxy)
            request.meta['proxy'] = proxy

        else:
            self.process_request(request, spider)

    def check_proxy(self, proxy):
        # 将代理IP解码为'utf-8'格式
        proxy = proxy.decode('utf-8')
        # 判断代理IP是否可用
        try:
            # 设置超时时间为3秒
            requests.get('https://www.eastmoney.com/', proxies={'http': proxy}, timeout=3)
            return True
        except:
            return False

在这个例子中，我们将代理IP的编码方式设置为'utf-8'，并在代理IP的读取和使用过程中进行编码和解码。这样做应该可以避免这个Unicode编码错误。

编辑记录

报告相同问题？

关注问题

Python中scrapy.FormRequest老是返回400错误响应 python
2022-09-17 21:20

回答 2 已采纳你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
使用scrapy框架时导入selenium模块失败 python 爬虫
2021-09-04 13:52

回答 1 已采纳检查一下哪个python.exe执行的这个文件，找到python的完整路径，比如c:\python39\python.exe然后执行 c:\python39\python.exe -c "import
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
Python编程语言入门
2023-08-09 03:55

禅与计算机程序设计艺术的博客 Python 是一种高级、动态的面向对象编程语言，其设计具有很强的可读性，适用于各种应用领域，是当前最流行的编程语言之一。本文首先对Python编程语言进行了介绍，然后详细阐述Python中的一些重要概念及术语，并着重...
scrapy运行发生错误，如何解决？ python 爬虫
2022-07-28 20:29

回答 1 已采纳重新安装一下lxml库呢https://blog.csdn.net/weixin_43965374/article/details/99641332
scrapy部署在服务器运行一段时间出现ERROR: Error downloading selenium ubuntu 爬虫
2022-08-09 17:43

回答 1 已采纳服务器掉网？？应该不会，你在服务器的那个控制平台不是可以看网络监控嘛？应该不是断网的问题。可能就是被反爬，你爬的数据多，一段时间内请求多，一般都会被反扒，而你又没有设置代码
scrapy中运行selemium填写验证码，browser启动后语句不执行 python selenium 有问必答爬虫
2021-12-16 14:44

回答 1 已采纳你在代码加个print()看看具体执行到哪一步
Python爬虫基础讲解（二十三）：scrapy框架简介
2021-06-17 15:14

松鼠爱吃饼干的博客 scrapy是一个使用Python语言（基于Twisted框架）编写的开源网络爬虫框架，目前由 scrapinghub Ltd维护。Scrapy简单易用、灵活易拓展、开发社区活跃，并且是跨平台的。在Linux、MaxOS以及windows平台都可以使用。 ...
建立scrapy工程，显示这样的错误，没找到解决方法 python
2017-08-08 03:20

回答 1 已采纳问题已经找到解决方法了，http://blog.csdn.net/robertchenguangzhi/article/details/50605889
python运行scrapy框架出现报错 NameError: name 'imp' is not defined python
2022-04-28 23:20

回答 7 已采纳如果你不记得改了什么的话，重装吧。毕竟你改了啥，怎么改回去就只有神才知道了。环境里面的.py文件改了的话基本没什么方法，除了重装。按报错来看，playwright, pyee,twisted,win3
scrapy1.4.0版本保存数据为JSON格式的疑问 json python
2017-07-22 15:42

回答 1 已采纳 http://www.cnblogs.com/rwxwsblog/p/4567052.html
scrapy 教程
2022-07-11 07:38

「已注销」的博客 ------------------------------------------------------------------------------------------ scrapy中文文档和 scrapy 英文文档参照看。因为中文文档比较老，英文文档是最新的。 scrapy 英文文档：...
scrapy爬虫出现 DEBUG: Crawled (404) python
2019-04-17 16:25

回答 1 已采纳如果楼主是用scrapy框架爬的话，可以在settings.py加上User-Agent信息，这样应该就可以了
scrapy爬虫使用简明教程
2019-10-01 17:14

周雄伟的博客三、scrapy框架基本使用及完整案例四、各组件的一些用法说明一、基本框架介绍 Scrapy框架介绍： Scrapy是: 由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构...
编程语言新宠Rust不完全入门指南
2021-06-17 00:56

hzbooks的博客范型是一个编程语言核心的机制了，C 语言是没有范型的而 C++ 也是通过模版实现，编译器在调用模版时自动进行类型推导，Rust 中当我们定义一个函数，如果类型存在多种情况下，即可通过范型定义，除了函数中使用之外还...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月28日

悬赏问题

¥20 测距传感器数据手册i2c
¥15 RPA正常跑，cmd输入cookies跑不出来
¥15 求帮我调试一下freefem代码
¥15 matlab代码解决，怎么运行
¥15 R语言Rstudio突然无法启动
¥15 关于#matlab#的问题：提取2个图像的变量作为另外一个图像像元的移动量，计算新的位置创建新的图像并提取第二个图像的变量到新的图像
¥15 改算法，照着压缩包里边，参考其他代码封装的格式写到main函数里
¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法

scrapy使用代理后出现字符格式错误

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新