Robots.txt到底怎么看？

本人在学习python爬虫的时候第一个注意的就是该怎么看网站能不能爬取，于是了解了Robots.txt。
所以本人除了之前偷偷尝试巴拉过一些数据以外都没有将这些在Robots.txt中禁止的网站中的api用于任何项目开源
但是近几天发现好多开源部署的api本质用的就是那些，而今天更是看到了一个爬取B站视频的博文上了热度，
我有点蒙圈了，B站的Robots.txt不是写着User-agent: * Disallow: /吗？就这么公开教学？
有没有懂行的解释一下这个到底怎么看？开源或者教程就可以忽略它吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Roc-xb 后端领域优质创作者 2024-08-13 15:12
关注
如果要爬的话，可以绕过就行。只要不是爬一些隐私未公开的隐私数据，一般来说，是没有什么问题的。当然你不能把别人的服务器给搞崩了，影响别人正常的业务运行。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

如果一个网址下不存在robots.txt文件，是不是代表了没有做爬虫限制？求解 python
2022-04-15 15:16

回答 1 已采纳若某网站无robots.txt文件，即默认对于爬虫无限制而实际上，robots协议只是一个说明文件，指出需遵守的爬虫协议，并没有实际的限制效果如有用请采纳
robots.txt 文件中 Allow: /$有什么含义？ javascript 有问必答
2021-07-11 12:56

回答 1 已采纳这个意思是允许访问/结尾的地址，它在disallow:/后面，所以整体的意思是不允许访问根地址，可以访问其它子一级的/结尾的地址有帮助的话，麻烦点个采纳
漂亮的URL和robots.txt laravel php
2014-01-26 19:05

回答 3 已采纳 From Google's robots.txt specifications: At a group-member level, in particular for allow and
robots.txt解析器_Ruby_下载.zip
2023-04-25 11:50

这个压缩包“robots.txt解析器_Ruby_下载.zip”显然包含了一个使用Ruby编程语言编写的用于解析`robots.txt`文件的工具。让我们深入探讨一下`robots.txt`文件、Ruby编程语言以及解析器的相关知识。 `robots.txt` ...
在PHP中使用curl获取robots.txt php
2016-05-30 16:36

回答 1 已采纳 In CURLOPT_URL you must write full host and path For example: http://www.stackoverflow.com/robots
robots.txt禁止空白的PHP页面并包括？ [关闭] php
2014-02-26 15:17

回答 1 已采纳 These are excellent examples of content that search engines don't want or need to crawl and index.
robots.txt只能阻止目录中的一种文件吗？ php
2014-02-25 04:27

回答 2 已采纳 You could write in your robots.txt disallow: thisdir/*.htm$ https://developers.google.com/webma
robots:在Go中解析robots.txt文件
2021-05-17 18:08

机器人该软件包以Go编程语言为Robots Exclusion Protocol提供了robots.txt解析器。该实现遵循。该代码简单明了。此程序包公开的结构仅包含基本数据类型，因此可以使用Go的encoding程序包之一轻松对其进行编码和...
PHP Array在robots.txt中解析站点地图 php
2012-12-10 00:51

回答 2 已采纳 $robots_file = file_get_contents($robotsTXT); $pattern = '/Sitemap: ([^\s]+)/'; preg_match_all($p
谷歌如何知道我的网页链接，因为我想创建一个多语言的网站，但SEO阻碍了我的方式 php
2019-02-21 18:56

回答 2 已采纳 A few essential items to ensure you've addressed when supporting internationalization of a website
httpclient怎么才可以不遵守robots.txt
2008-06-27 15:48

回答 3 已采纳 import java.io.IOException; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
Go语言的robots.txt排除协议实现_Go_Shell_下载.zip
2023-04-25 11:10

Go 语言是谷歌开发的一种静态类型、编译型、并发型的编程语言。它的语法简洁，性能优秀，特别适合构建网络服务和工具。 3. **读取 robots.txt 文件**：使用 Go 语言，我们可以使用标准库 `io/ioutil` 来读取文件...
如何在具有多个域的godaddy共享服务器中创建robot.txt html php
2014-05-23 05:56

回答 2 已采纳 You'll use two different robots.txt files. One goes into /web1 and the other goes into /web2. As f
一个遵守 robots.txt 规则的爬虫
2024-03-01 22:11

编写一个遵守 robots.txt 规则的数据爬虫程序涉及到多个步骤，包括请求网页、解析 robots.txt 文件、扫描网页内容、存储数据以及处理异常。由于编程语言众多，且每种语言编写爬虫程序的方式可能有所不同，程序使用 ...
尊重网络礼仪：Python 爬虫遵循 robots.txt 文件规范
2024-07-07 03:11

Python 爬虫，通常被称为 Python Spider 或 Python Web Scraper，是一种使用 Python 编程语言编写的自动化脚本或程序，用于从互联网上的网站提取信息。这种程序可以访问网页，解析页面内容，并从中提取出有用的数据...
贝岭的matlab的代码-www-robotrules:解析/robots.txt文件的模块
2021-06-16 08:58

在IT行业中，MATLAB是一种广泛使用的高级编程语言，尤其在科学计算、数据分析和工程应用方面。这个名为"贝岭的matlab的代码-www-robotrules"的项目，显然是一个使用MATLAB编写的开源模块，其目标是解析遵循`robots....
【python】遵守 robots.txt 规则的数据爬虫程序
2024-03-02 11:40

109702008的博客创建一个遵守 robots.txt 规则的数据爬虫的示例程序相当复杂，因为它需要考虑多个方面，包括解析 robots.txt 规则、避开禁止访问的路径、遵守爬取时间间隔（Crawl-delay）等。1. 解析`robots.txt`：使用`urllib....
SEO robots协议（ WordPress - robots.txt ）
2020-05-25 11:40

捣鼓单车的博客 WordPress 的 Robots.txt 协议怎么写？ SEO 我自建blog网站：tl8517.com 已经很长时间了。搜索引擎就是不收录我的网址，除了Google收录了（网站就是建在Google云，不可能自家的都不会不收录吧），其它的搜索引擎...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月13日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

Robots.txt到底怎么看？

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新