weixin_38752686 2021-04-10 20:07 采纳率: 100%
浏览 233
已采纳

python爬虫,为什么使用cookie后会,网页会返回403?

python爬虫问题

1、glidesky网站的登录data中的_token的值是如何得来的?

2、glidesky IP屏蔽这道题,直接使用代理访问,headers中不包含cookie时,网页返回的不是我们需要的数据,是如下的显示,感觉像是提示需要先登录,才能访问‘http://glidedsky.com/level/crawler-ip-block-1’;但是一使用cookie,就返回403。

<div class="card-body">
    <form method="POST" action="http://glidedsky.com/login">
        <input type="hidden" name="_token" value="vGOPR6TPhTbPkFBpmfw31k2QLAJv6sfkb2uF5sOs">

问题2优先。

  • 写回答

4条回答 默认 最新

  • CSDN专家-HGJ 2021-04-10 21:49
    关注

    对网站的多次请求时,要模仿浏览器浏览的一样,要有时间间隔不能过于频繁,尽量把请求头写全写对,针对题主的问题,1.csrf_token的获取要从页面分析着手,主要是在页面代码中meta 或其他地方找;二是cookie问题。估计是你每次请求时,用了同一个cookies,这很容易被服务器认为是爬虫而遭拒绝访问。在传cookies时要注意它有时不是一成不变的,有时间戳的要动态调整成当时请求的时间,一般用datetime来构造。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥20 mysql架构,按照姓名分表
  • ¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
  • ¥15 Macbookpro 连接热点正常上网,连接不了Wi-Fi。
  • ¥15 delphi webbrowser组件网页下拉菜单自动选择问题
  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题