weixin_38752686 2021-04-10 20:07 采纳率: 100%
浏览 235
已采纳

python爬虫,为什么使用cookie后会,网页会返回403?

python爬虫问题

1、glidesky网站的登录data中的_token的值是如何得来的?

2、glidesky IP屏蔽这道题,直接使用代理访问,headers中不包含cookie时,网页返回的不是我们需要的数据,是如下的显示,感觉像是提示需要先登录,才能访问‘http://glidedsky.com/level/crawler-ip-block-1’;但是一使用cookie,就返回403。

<div class="card-body">
    <form method="POST" action="http://glidedsky.com/login">
        <input type="hidden" name="_token" value="vGOPR6TPhTbPkFBpmfw31k2QLAJv6sfkb2uF5sOs">

问题2优先。

  • 写回答

4条回答 默认 最新

  • CSDN专家-HGJ 2021-04-10 21:49
    关注

    对网站的多次请求时,要模仿浏览器浏览的一样,要有时间间隔不能过于频繁,尽量把请求头写全写对,针对题主的问题,1.csrf_token的获取要从页面分析着手,主要是在页面代码中meta 或其他地方找;二是cookie问题。估计是你每次请求时,用了同一个cookies,这很容易被服务器认为是爬虫而遭拒绝访问。在传cookies时要注意它有时不是一成不变的,有时间戳的要动态调整成当时请求的时间,一般用datetime来构造。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥15 Opencv配置出错
  • ¥15 模电中二极管,三极管和电容的应用
  • ¥15 关于模型导入UNITY的.FBX: Check external application preferences.警告。
  • ¥15 气象网格数据与卫星轨道数据如何匹配
  • ¥100 java ee ssm项目 悬赏,感兴趣直接联系我
  • ¥15 微软账户问题不小心注销了好像
  • ¥15 x264库中预测模式字IPM、运动向量差MVD、量化后的DCT系数的位置
  • ¥15 curl 命令调用正常,程序调用报 java.net.ConnectException: connection refused
  • ¥20 关于web前端如何播放二次加密m3u8视频的问题
  • ¥15 使用百度地图api 位置函数报错?