Uarexx 2023-06-05 17:24 采纳率: 50%
浏览 24

Python大学排名爬虫,401怎么解决

想爬这个页面https://www. shanghairanking.cn/institution ,F12抓包后发现是访问api异步加载的,但是直接访问api/v2010/inst 的返回码是401,已经把cookie、authorization那些参数都复制了,但是还是不能访问成功,有懂的吗?

网上也没查到解决方法,都是爬排名的教程,没看到爬这个页面的

img

  • 写回答

3条回答 默认 最新

  • 疯狂的豆包 2023-06-05 19:26
    关注

    401错误说明访问被拒绝,可能是因为缺少某些必要的参数或者登录状态失效。我建议你尝试以下几个步骤:

    1. 检查请求头中的参数,是否包含必要的参数。可以参考浏览器中的请求头信息来设置请求头。
    2. 确认你的登录状态是否有效。如果登录状态失效会导致无法访问数据。你可以先手动登录进入该网站,保持登录状态尝试爬取。
      如果以上两种方法都没有解决问题,可能需要模拟浏览器行为,比如使用Selenium等自动化工具可以模拟浏览器操作,并可以实现登录、滚动等操作。可以尝试使用这种方法来爬取数据。
    评论

报告相同问题?

问题事件

  • 修改了问题 6月5日
  • 修改了问题 6月5日
  • 修改了问题 6月5日
  • 创建了问题 6月5日