robots.txt模式匹配不起作用

I need to get a pattern matching rule to get this results.

allow /dir/path_name.htm/something
disallow /dir/path_name/something
and disallow /dir/path_name.htm

Actually those two disallows are typos accumulated all along. Those pages never exist. How to stop google crawling them never again?

I tested here: http://www.frobee.com/robots-txt-check/ with the following, but seems nothing working.

Allow: /dir/*.htm/?*
Disallow: /dir/*

What went wrong? Thank you.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongyao9762 2012-07-16 13:56
关注
According to the spec:

http://www.robotstxt.org/norobots-rfc.txt

Wildcards (*) are not allowed. The paths are just exact matches. My guess is that you're using some form of rewriting and you don't want multiple ulrs with the same content to show up. In that case this may be a better solution:

http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如果一个网址下不存在robots.txt文件，是不是代表了没有做爬虫限制？求解 python
2022-04-15 15:16

回答 1 已采纳若某网站无robots.txt文件，即默认对于爬虫无限制而实际上，robots协议只是一个说明文件，指出需遵守的爬虫协议，并没有实际的限制效果如有用请采纳
robots.txt 文件中 Allow: /$有什么含义？ javascript 有问必答
2021-07-11 12:56

回答 1 已采纳这个意思是允许访问/结尾的地址，它在disallow:/后面，所以整体的意思是不允许访问根地址，可以访问其它子一级的/结尾的地址有帮助的话，麻烦点个采纳
在PHP中使用curl获取robots.txt php
2016-05-30 16:36

回答 1 已采纳 In CURLOPT_URL you must write full host and path For example: http://www.stackoverflow.com/robots
【安全狐】robots协议详解(robots.txt)
2020-10-29 23:12

安全狐的博客 robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器...
漂亮的URL和robots.txt laravel php
2014-01-26 19:05

回答 3 已采纳 From Google's robots.txt specifications: At a group-member level, in particular for allow and
robots.txt禁止空白的PHP页面并包括？ [关闭] php
2014-02-26 15:17

回答 1 已采纳 These are excellent examples of content that search engines don't want or need to crawl and index.
PHP Array在robots.txt中解析站点地图 php
2012-12-10 00:51

回答 2 已采纳 $robots_file = file_get_contents($robotsTXT); $pattern = '/Sitemap: ([^\s]+)/'; preg_match_all($p
关于Robots.txt的语法
2010-10-19 11:58

weixin_34248118的博客谈谈ROBOTS.TXT语法和作用我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。对于网站管理者和内容...
robots.txt只能阻止目录中的一种文件吗？ php
2014-02-25 04:27

回答 2 已采纳 You could write in your robots.txt disallow: thisdir/*.htm$ https://developers.google.com/webma
httpclient怎么才可以不遵守robots.txt
2008-06-27 15:48

回答 3 已采纳 import java.io.IOException; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
谷歌如何知道我的网页链接，因为我想创建一个多语言的网站，但SEO阻碍了我的方式 php
2019-02-21 18:56

回答 2 已采纳 A few essential items to ensure you've addressed when supporting internationalization of a website
CTF-robots
2020-12-24 10:18

适好 "的博客 robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器...
PHP MySQL信息更新不起作用 mysql php
2017-02-08 09:17

回答 1 已采纳 Thank You Everyone for spending time on my question. I could not have found the answer without hav
新建网站提升曝光率设置集合（边使用边更新）（包括：SEO优化，Robots设置，CDN加速，防盗链）
2020-05-04 09:21

AlvinCasper的博客用途：设置robots.txt以自定义网页是否可以被抓取。允许爬取的利弊：优：通过做SEO，进行优化使网站排名靠前，这样只要搜索相关关键词就能找到自己的网站。为查找引擎供给一个简洁明了的索引环境制止某些...
【个人笔记，摘抄】--关于thinkphp5.1.43
2022-02-28 16:56

F1gh4的博客进入/public robots.txt用于表明禁止让百度等搜索引擎来搜索的文件，以及文件类型。有些敏感信息的泄露，基于一个网站的robots.txt。这个文件的处理和网站的安全有关。进入router.php 这里测试了一下该文件，即...
php正则表达式除什么之外,正则表达式：匹配除特定模式以外的所有内容
2021-04-07 08:22

王司图的博客我需要一个能够匹配除以特定模式(特别是index.php及其后的内容，例如index.php?id=2342343)开头的字符串之外的所有内容的正则表达式您不希望匹配哪种特定模式？是否有原因为什么您不能匹配您的模式，并且如果字符串...
web安全测试用例(网络资源笔记)
2021-12-30 16:12

今宵孤枕冷难眠的博客 Robots协议是网站国际互联网界通行的道德规范，其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯，如果robots.txt文件编辑的太过详细，反而会泄露网站的敏感目录或者文件，比如网站后台路径，从而...
phalcon index.php,phalcon简易指南
2021-04-12 14:58

每天一个收货的博客 Zephir是开源的，使用类似PHP语法的语言，生成C语言代码，并编译成PHP扩展。这提高了PHP扩展的开发效率，并降低了框架的后期维护成本。phalcon-devtools安装 https://github.com/phalcon/phalco...
php正则排除制定字符,使用正则表达式找出不包含特定字符串的条目
2021-04-16 12:36

网络游侠的博客今天在写一个功能的时候，需要替换不包含指定字符串的正则，看到了一篇好文章特整理分享下，方便需要的朋友做日志分析工作的经常需要跟成千上万的日志条目打交道，为了在庞大的数据量中找到特定模式的数据，常常需要...
没有解决我的问题, 去提问

悬赏问题

¥20 测距传感器数据手册i2c
¥15 RPA正常跑，cmd输入cookies跑不出来
¥15 求帮我调试一下freefem代码
¥15 matlab代码解决，怎么运行
¥15 R语言Rstudio突然无法启动
¥15 关于#matlab#的问题：提取2个图像的变量作为另外一个图像像元的移动量，计算新的位置创建新的图像并提取第二个图像的变量到新的图像
¥15 改算法，照着压缩包里边，参考其他代码封装的格式写到main函数里
¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法

robots.txt模式匹配不起作用

1条回答 默认 最新

悬赏问题

1条回答默认最新