python+scrapy+selenium爬虫超时和连接被拒绝问题

在使用爬虫抓取网站的时候，启动了多个进程，运行一段时间后有的进程会无缘无故的停止，，，，还经常会出现超时，，，，还有一个连接被拒绝的错误，，，请教大神这些问题产生的原因有哪些，，，怎么解决的.。。。。
附连接拒绝的错误
图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2017-03-23 04:42
关注
一个是爬虫的个数，可能被服务器判断出在扒取数据了，还有就是同一个IP访问过多，
所以拒绝你的连接。

一个是降低扒取的频率，还有就是增加proxy代理，通过不同的IP爬取网站

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
Python爬虫实战使用scrapy与selenium来爬取数据
2022-09-21 17:12

尽君欢的博客当学会使用Scrapy 和 Selenium后的那就试试通过Scrapy 驱动 Selenium来获取数据，可以绕过JS解密的耗时，缺点是可能爬取数据的速度会变慢慢。Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写...
scrapy如何手动停止爬虫？ python
2021-05-10 09:54

回答 1 已采纳 Ctrl+C 只是终止主线程,你的其他线程没有守护,所以 Ctrl+C 后它们继续运行。另外scrapy中的 Ctrl+C 是暂停，并不是完全停止，Ctrl+C 是断点续爬的基础。
python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
【一】python3+Scrapy：爬虫框架问题合集【参考转载大佬文章 + 自己解决方法】
2023-05-03 10:06

温柔夏目的博客链接: 如何在双python下设置python3为默认 17、Scrapy从脚本运行爬虫的5种方式链接: Scrapy从脚本运行爬虫的5种方式 18、Scrapy爬虫项目中避免被禁止爬虫的几种方法链接: Scrapy爬虫项目中避免被禁止爬虫的几种...
scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
关于#pythonscrapy#的问题，如何解决？ python 开发语言爬虫
2023-04-02 16:26

回答 2 已采纳好问题！！抱歉我也不太懂，你问问chatGPT吧：https://new.quke123.com/ 或者其他Python群友：https://app.yinxiang.com
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 22:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
六 Python之scrapy爬虫框架
2021-05-07 11:56

麦芽糖0219的博客 scrapy的工作流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_splash组件的使用 scrapy的日志信息与配置 scrapyd部署scrapy...
scrapy用selenium闪退 python 爬虫
2022-03-28 00:22

回答 1 已采纳这种大概率都是浏览器驱动和浏览器版本不一致的问题吧
python selenium爬虫豆瓣_Scrapy+Selenium爬取豆瓣电影评论
2020-12-20 23:52

weixin_39604350的博客设置Selenium超时时间 SELENIUM_TIMUOUT = 30 # 设置为selenim抓取 USE_SELENIUM = True # 设置配置文件conf.ini路径信息 BASE_DIR = os.path.dirname(os.path.realpath(__file__)) CONF = os.path.join(BASE_DIR, '...
scrapy爬虫利用selenium实现用户登录和cookie传递
2018-04-15 22:19

许雪凯的博客 scrapy爬虫利用selenium实现用户登录和cookie传递1. 背景上篇讲解了如何在scrapy中集成selenium爬取一些特别复杂的页面（传送门：https://blog.csdn.net/zwq912318834/article/details/79773870），而事实上，在平时...
没有解决我的问题, 去提问

悬赏问题

¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的

python+scrapy+selenium爬虫超时和连接被拒绝问题

4条回答 默认 最新

悬赏问题

4条回答默认最新