爬取网站，之前可以，现在又报404了咋办，怎么调都不行

有user-agent，有时间停顿，但是之前爬了一段时间，只是一小会报错404，一会就好了，现在很久都是404，爬取不到。求解决方案，详细

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
GISer Liu 2024-04-05 01:41
关注
该回答引用自GPT-3.5,由博主GISer Liu编写：

根据你的描述，问题可能出在网站的反爬虫机制上。即使你已经设置了User-Agent和时间停顿，但网站可能已经更新了反爬虫策略，导致你的爬虫被拦截。
解决这个问题的方法有几种：

更换User-Agent ：尝试使用不同的User-Agent，可以通过设置不同的User-Agent来绕过反爬虫机制。
增加时间停顿 ：增加爬取时的时间停顿，让爬虫操作看起来更像是真实用户的操作，而不是机器人。
使用代理IP ：使用代理IP来隐藏你的真实IP地址，以免被网站封锁。
分布式爬虫 ：如果可能的话，考虑使用分布式爬虫，将请求分散到多个IP地址上，减轻单个IP被封锁的风险。
修改爬取策略 ：如果网站有API可以使用，尽量使用API进行数据获取，而不是直接爬取网页。
联系网站所有者 ：如果你是在合法且允许的情况下进行爬取，可以尝试联系网站所有者，说明你的爬取目的并请求他们放宽对你的限制。
总之，面对反爬虫机制，需要不断尝试和调整爬取策略，以便适应网站的更新。

如果该回答解决了您的问题，请采纳！如果没有，请私信联系或评论您的疑惑
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

关于#爬虫#的问题：爬虫爬取tr中的td内容，我的代码之前可以爬另一个几乎一样的网页(语言-python) python 爬虫
2023-03-08 20:02

回答 1 已采纳回答：你可以把你的脚本贴一下，这个网页结构还是比较清晰的，可以用beautifulsoup比较容易获取到内容
通lxml爬取网站大图 python
2023-02-04 10:09

回答 2 已采纳该回答引用ChatGPT请参考下面的解决方案，如果可行还请点采纳，感谢！你可以用 str.replace() 方法来把 "_s" 字符串从 URL 中删除： url = "https://scpic
【python】selenium爬取含企查查中文的网址报405问题 chrome python selenium
2021-09-23 10:04

回答 2 已采纳先进首页，再跳转
python可以学会编程语言吗_为什么我建议你一定要学Python？
2020-12-29 06:16

寻书人的博客之前我就被朋友圈的一则python广告惊到了！今天见到这个广告的点赞评论依旧那么多！热度丝毫没有要减的意思(目瞪口呆.jpg)朋友圈里编辑、运营、HR、市场、医生、行政……那些本和技术八竿子打不着关系的人，居然开始...
爬取有道翻译时更改data为何更改不了语言？ python 有问必答
2021-08-12 10:27

回答 2 已采纳 headers={ 'Accept':'application/json, text/javascript, */*; q=0.01', 'Accept-Encoding':'gzip, defla
为什么爬取的网站，页面代码少了好多，然后网站显示空白 python 有问必答爬虫
2022-02-19 20:26

回答 3 已采纳你是用requests爬取网页的吗你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用s
如何有效的在爬取网站时输入邮编？ html python 爬虫
2022-05-30 11:04

回答 1 已采纳就两种方式啊，要么使用页面爬取要么通过请求接口的方式爬取，当然请求接口的方式速度是最快的，但是太频繁容易被检测出事爬虫，那就把爬取的速度稍微放慢一点，中间设置一个等待时间，尽量模拟是人的操作，还有就是
开启全民编程时代！Python小学生都要学的编程语言！
2019-02-14 22:42

逻辑教育_Hank的博客如要问现在最流行与时髦的计算机编程语言是什么？毫无疑问，Python领衔主演，网络上一句“人生苦短，我用Python” 不知换走了多少程序员的真心！ Python近些年随着大数据，云计算、AI等领域的大规模应用，稳步的在...
关于爬虫爬取动态网站的问题 python 有问必答爬虫
2022-04-17 18:40

回答 2 已采纳你这个网页中的内容通过 js代码读取外部json数据来动态更新的。可以通过F12控制台分析页面数据加载的链接，找到真正json数据的地址进行爬取。或者参考selenium滚动到页面底部的几种解决方案
selenium爬取房源网站 python selenium 有问必答
2022-05-10 21:17

回答 3 已采纳请提供报错信息，从报错行查找原因。
爬取网站发现网站的数据量不对 python selenium
2021-10-20 21:00

回答 1 已采纳有数据链接，有效请求才能获取数据，剩下的数据你也需要借助浏览器开发者工具去分析数据加载方式，参数传递要求等。
[网络安全自学篇] 十四.Python攻防之基础常识、正则表达式、Web编程和套接字通信（一）
2019-09-28 22:55

Eastmount的博客这是作者的系列网络安全自学教程，主要是关于网安工具和实践操作的在线笔记，特分享出来...本文参考了爱春秋ADO老师的课程内容，这里也推荐大家观看他Bilibili和ichunqiu的课程，同时也结合了作者之前的经验进行讲解。
java爬取网站数据时，报<strong>请开启JavaScript并刷新该页.</strong>，求解决方法 java javascript 有问必答爬虫
2022-02-09 17:25

回答 3 已采纳我遇到过两种网站是这养的,1.第一种是需要加cookie参数,加上了就可以 2.第二种就是直接使用selenium模拟浏览器
【AI大模型企业级应用开发实战】企业级应用集成AI大模型的架构，包括大模型概述、集成实践、技术架构设计及应用场景《AI大模型应用架构（ALLMA）白皮书》
2023-06-30 03:08

AI天才研究院的博客企业级应用集成AI大模型架构白皮书 By 禅与计算机程序设计艺术&AI 摘要 2022年11月OpenAl开放测试ChatGPT,此后ChatGPT风靡全球,3月份的网站月活达到10亿,成为跻身全球流量20强网站，刷新消费级网站的两用户增长...
强大AI助力编程革命：利用langchain技术实现代码自动生成
2024-07-18 10:39

黑客-雨的博客正如它名字中的chain，就可以知道，通过这个框架，可以把各种东西“链”起来。它是近几个月才火起来的，是目前github增长速度排第2的仓库。截止2023年7月16日，已经有54.7k的star了。它支持nodejs和Python调用，后续...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月5日

悬赏问题

¥15 ansys fluent计算闪退
¥15 有关wireshark抓包的问题
¥15 需要写计算过程，不要写代码，求解答，数据都在图上
¥15 向数据表用newid方式插入GUID问题
¥15 multisim电路设计
¥20 用keil，写代码解决两个问题，用库函数
¥50 ID中开关量采样信号通道、以及程序流程的设计
¥15 U-Mamba/nnunetv2固定随机数种子
¥15 vba使用jmail发送邮件正文里面怎么加图片
¥15 vb6.0如何向数据库中添加自动生成的字段数据。

爬取网站，之前可以，现在又报404了咋办，怎么调都不行

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新