爬虫遇到js跳转反爬

爬一个网站时，发现如果从来没打开过的链接使用request.get得到的内容和浏览器打开的不一样，研究了下是因为做了js跳转反爬。但是为什么浏览器打开了一次之后就能正常get到需要的内容呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

qq_41870875 2021-06-23 13:15

关注

我并没有用过python,有用过php的curl,也有用过c语言的curl.
推荐学习c语言的curl(并不用写c代码 ,只是通过c语言的curl 学习抓取网页所需用到的参数).
相关文章可以参考下
文章地址:https://www.cnblogs.com/meteoric_cry/p/3994893.html
或者自行搜索CURLcode 定义 相关.

你的问题解决方案是
  先通过浏览器获取到网址对应的 curl  
  在将这些参数添加到python-curl中(即模拟浏览器访问),
  每一个网站下多个地址可能某些参数是不一样的,
  但他们只要策略一样 就可以手动一次  全站使用.



下面是 用谷歌浏览器获得的某网址的curl
举例csdn为例  
例如user-agent 即浏览器标识 ,
curl功能有很多  也可以抓取ssl页面,
也可以cookie 用户登录等等 , 
一些服务器程序也是利用这些头部信息进行来源分析,这些都在CURLcode 定义中.
     
curl "https://ask.csdn.net/questions/7452100?answer=53434076" ^
  -H "authority: ask.csdn.net" ^
  -H "cache-control: max-age=0" ^
  -H "sec-ch-ua: ^\^" Not;A Brand^\^";v=^\^"99^\^", ^\^"Google Chrome^\^";v=^\^"91^\^", ^\^"Chromium^\^";v=^\^"91^\^"" ^
  -H "sec-ch-ua-mobile: ?0" ^
  -H "upgrade-insecure-requests: 1" ^
  -H "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36" ^
  -H "accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9" ^
  -H "sec-fetch-site: none" ^
  -H "sec-fetch-mode: navigate" ^
  -H "sec-fetch-user: ?1" ^
  -H "sec-fetch-dest: document" ^
  -H "accept-language: zh-CN,zh;q=0.9" ^
  -H "cookie: "**************" ^
  --compressed

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

爬虫遇到js跳转反爬 python
2021-06-17 22:05

回答 3 已采纳我并没有用过python,有用过php的curl,也有用过c语言的curl. 推荐学习c语言的curl(并不用写c代码 ,只是通过c语言的curl 学习抓取网页所需用到的参数). 相关文章可以参考下
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
关于python爬虫，图片反爬 html python 爬虫
2022-07-12 00:50

回答 2 已采纳不是你爬到的是个静态的html页但是人家的html页其实是动态的，是需要执行js然后修改上面的值的
Python爬虫之常见的反爬手段和解决方法
2023-11-29 01:35

Zsanfeng的博客转载这篇文章主要是了解python反爬虫策略，帮助自己更好的理解和使用python 爬虫。
用python做爬虫遇到的问题 python 爬虫
2021-09-11 14:26

回答 2 已采纳
Python院士爬虫遇到了问题 python 爬虫
2022-06-12 23:13

回答 1 已采纳 except后面可以加 e，然后打印e。类似 except Exception as e: print("未知异常：%s" % e) 另外，你这样创建启动进程，似乎有点多。最
python爬虫学习中遇到的问题 python 爬虫
2023-02-14 11:17

回答 4 已采纳该回答引用ChatGPT根据错误信息，这个问题可能是由于连接超时或网络连接不可用导致的。因此，建议您检查以下几个方面：确保您的网络连接正常并且能够访问请求的地址。确保请求的地址正确且存在，尝试在浏览
爬虫中常见的反爬手段和解决方法
2021-11-27 17:44

黑马蓝汐的博客了解常见基于爬虫行为进行反爬了解常见基于数据加密进行反爬一、反爬的三个方向基于身份识别进行反爬基于爬虫行为进行反爬基于数据加密进行反爬二、常见基于身份识别进行反爬 1. 通过headers字段来反爬 ...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python 爬虫正则表达式打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
Python爬虫有哪些常见的反爬手段？
2021-12-07 08:53

途途途途的博客在抓取对方网站、APP 应用的相关数据时，经常会遇到一系列的方法阻止爬虫。网站APP们这么做的原因，一是为了保证服务的质量，降低服务器负载，二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰， ...
Python爬虫遇到获取不了页面数据 python
2022-11-15 23:10

回答 1 已采纳可以查看请求目标地址头的时候，是否有加密参数这一点很重要
爬虫selenium模拟浏览器特征隐藏stealth.min.js防反爬实测有效
2023-04-21 10:22

尝试爬的时候，时长遇到网站反爬，随即返回无效内容或跳转劝退网页！反爬确实令人作呕！找遍全网，希望能帮助到需要的人！仅做学习使用，有更好的方法，联系一下！调用代码如下： bb = webdriver.Chrome(options=...
python爬虫之JS链接跳转内容爬取
2019-12-15 16:53

Ryan_yan1的博客 2、从二级页面链接中提取真实链接（反爬-响应内容中嵌入JS，指向新的链接） 1 、向二级页面链接发请求得到响应内容，并查看嵌入的JS代码 2 、正则提取真实的二级页面链接 # 相关思路代码 two_html = requests...
没有解决我的问题, 去提问

悬赏问题

¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100

码龄粉丝数原力等级 --

爬虫遇到js跳转反爬

3条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

爬虫遇到js跳转反爬

3条回答 默认 最新

悬赏问题

3条回答默认最新