scrapy设置代理 IP 无法爬去

middewares里：

class ProxyMiddleWare(object):
def process_request(self, request, spider):
proxy = random.choice(PROXIES)

    if proxy['user_passwd'] is None:
    # if 'user_passwd' not in proxy:
        # 没有代理账户验证的代理使用方式
        print('---------------------->>> ', proxy['ip_port'])
        request.meta['proxy'] = "http://" + proxy['ip_port']
        # request.meta['proxy'] =  'http://122.235.168.162:8118'
    else:
        # 对账户密码进行base64编码转换
        base64_userpasswd = base64.b64encode(proxy['user_passwd'].encode())
        # 对应到代理服务器的信令格式里
        request.headers['Proxy-Authorization'] = 'Basic ' + base64_userpasswd.decode()
        request.meta['proxy'] = "http://" + proxy['ip_port']

setting里：

PROXIES = [
# {'ip_port': '61.175.192.2:35420'},
# {'ip_port': '221.234.192.10:8010'},
{'ip_port': '221.224.49.194:51127', 'user_passwd': ''},
# {"ip_port": "121.41.8.23:16816", "user_passwd": "morganna_mode_g:ggc22qxp"},

# {'ip_port': '122.224.249.122:8088', 'user_passwd': 'user4:pass4'},

]

DOWNLOADER_MIDDLEWARES = {

'taobao.middlewares.TaobaoDownloaderMiddleware': 543,

'taobao.middlewares.SeleniumMiddleware': 543,

'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 751,

'taobao.middlewares.ProxyMiddleWare': 750,
'taobao.middlewares.RandomUserAgent': 400,

}

我是这么设置的，而且这个IP用request测试过，返回状态码也是200，但在scrapy里不能正常抓取数据，请教各位大神指点下

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
lyhsdy 2018-10-08 09:12
关注
1.可以尝试测试下你的代理是否可以对其他网站爬取，如果无效，说明你的代理有问题
2.淘宝网对一般的代理无效，可以尝试爬取 https://www.whatismybrowser.com/ 网址，找到IP Address 是否你真是IP还是代理的IP

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
scrapy框架中多爬虫文件情况下怎么设置那个爬虫走那个管道类呢？ python redis 爬虫
2021-09-02 17:19

回答 2 已采纳方法一：在pipeline里添加管道类，在close_spider方法里根据 spider.name 进行判断，进行对应处理最后在settings中开启管道。方法二：scrapy用system命令在
scrapy爬虫无法翻页 python 有问必答
2021-05-06 08:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
关于爬虫设置代理ip后，访问查询ip网站仍然显示本机ip
2023-11-04 18:58

zhuyua的博客代理的ip地址为:但是显示为本机ip。
scrapy模块进行爬虫报错 python 爬虫
2022-12-27 23:14

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜测可能是因为没有在你的项目目录下创建这个模块，或者是你在项目的 settings.py 文件中没有指定正确的模块路径。你需要确保在你的项目目录下有
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-06 00:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
零基础小白学习python爬虫：如何在scrapy请求异常之后再设置代理IP
2020-11-02 17:04

python阿喵的博客我们都知道 scrapy 可以设置代理 IP，但是不知道大家有没有遇到这样一个场景：常规的代理 IP 设置，会对每个请求都生效，也就是说每个请求都会去使用代理但是有些请求根本不需要代理，我希望当我的请求出现错误...
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
用scrapy爬到一半时停止并报错invalid session id python 爬虫
2022-01-04 16:58

回答 1 已采纳这位博友情况跟你的有点类似，你可以借鉴一下 https://blog.csdn.net/weixin_35757704/article/details/120706276
scrapy在创建爬虫文件时候url的错误 python 爬虫
2023-04-19 23:01

回答 1 已采纳是这样的，没问题。scrapy认为加了/b/的不是一个正确的网站，因为一般的网站首页都是.com .cn这样结尾的。所以默认去掉了后面的。需要自己手动修改的。
基于scrapy爬虫实现对imdb数据的采集，并使用flask进行展示.zip
2024-01-03 01:46

1. **反爬策略**：IMDb可能有反爬机制，如验证码、IP限制等，需要适当地设置User-Agent、延时策略或者使用代理IP。 2. **数据解析**：HTML结构变化可能导致解析规则失效，需要定期维护和更新。 3. **性能优化**：...
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
scrapy 切换ip和useragent
2022-02-19 14:45

飞锡2024的博客 scrapy middleware设置，注意设置setting文件 DOWNLOADER_MIDDLEWARES = { '爬虫名字.middlewares.RandomUserAgentMiddlware': 543, 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, } ...
Python爬虫总结——Scrapy+Gerapy部署网络爬虫
2022-12-18 12:10

月见清和的博客网络爬虫（也称为网页蜘蛛、Web 蜘蛛、网络机器人或网络蚂蜂）是一种自动按照特定规则在网络上...本文通过jupyter notebook上进行基础单网页爬虫以及通过Scrapy+Gerapy实现多网页爬虫、定时抓取网页信息的案例演示。
没有解决我的问题, 去提问

悬赏问题

¥15 Stata链式中介效应代码修改
¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错