achao7857 2024-08-13 14:54 采纳率: 100%
浏览 4
已结题

Robots.txt到底怎么看?

本人在学习python爬虫的时候第一个注意的就是该怎么看网站能不能爬取,于是了解了Robots.txt。
所以本人除了之前偷偷尝试巴拉过一些数据以外都没有将这些在Robots.txt中禁止的网站中的api用于任何项目开源
但是近几天发现好多开源部署的api本质用的就是那些,而今天更是看到了一个爬取B站视频的博文上了热度,
我有点蒙圈了,B站的Robots.txt不是写着User-agent: * Disallow: /吗?就这么公开教学?
有没有懂行的解释一下这个到底怎么看?开源或者教程就可以忽略它吗?

  • 写回答

3条回答 默认 最新

  • Roc-xb 后端领域优质创作者 2024-08-13 15:12
    关注

    如果要爬的话,可以绕过就行。只要不是爬一些隐私未公开的隐私数据,一般来说,是没有什么问题的。当然你不能把别人的服务器给搞崩了,影响别人正常的业务运行。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 8月23日
  • 已采纳回答 8月15日
  • 创建了问题 8月13日

悬赏问题

  • ¥15 35114 SVAC视频验签的问题
  • ¥15 impedancepy
  • ¥15 在虚拟机环境下完成以下,要求截图!
  • ¥15 求往届大挑得奖作品(ppt…)
  • ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
  • ¥50 浦育平台scratch图形化编程
  • ¥20 求这个的原理图 只要原理图
  • ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
  • ¥20 微信的店铺小程序如何修改背景图
  • ¥15 UE5.1局部变量对蓝图不可见