本人在学习python爬虫的时候第一个注意的就是该怎么看网站能不能爬取,于是了解了Robots.txt。
所以本人除了之前偷偷尝试巴拉过一些数据以外都没有将这些在Robots.txt中禁止的网站中的api用于任何项目开源
但是近几天发现好多开源部署的api本质用的就是那些,而今天更是看到了一个爬取B站视频的博文上了热度,
我有点蒙圈了,B站的Robots.txt不是写着User-agent: * Disallow: /
吗?就这么公开教学?
有没有懂行的解释一下这个到底怎么看?开源或者教程就可以忽略它吗?
Robots.txt到底怎么看?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
3条回答 默认 最新
悬赏问题
- ¥15 35114 SVAC视频验签的问题
- ¥15 impedancepy
- ¥15 在虚拟机环境下完成以下,要求截图!
- ¥15 求往届大挑得奖作品(ppt…)
- ¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
- ¥50 浦育平台scratch图形化编程
- ¥20 求这个的原理图 只要原理图
- ¥15 vue2项目中,如何配置环境,可以在打完包之后修改请求的服务器地址
- ¥20 微信的店铺小程序如何修改背景图
- ¥15 UE5.1局部变量对蓝图不可见