我如何只允许抓取工具访问网站的一部分？

I've got an ajax rich website which has extensive _escaped_fragment_ portions for Ajax indexing. While all my _escaped_fragment_ urls do 301 redirects to a special module which then outputs the HTML snapshots the crawlers need (i.e. mysite.com/#!/content redirects to mysite.com/?_escaped_fragment_=/content which in turn 301s to mysite.com/raw/content), I'm somewhat afraid of users stumbling on those "raw" URLs themselves and making them appear in search engines.

In PHP, how do I make sure only robots can access this part of the website? (much like StackOverflow disallows its sitemap to normal users, and only lets robots access it)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongyi2889 2013-07-30 08:55
关注
You can't, at least not reliably.

robots.txt asks spiders to keep out of parts of a site, but there is no equivalent for regular user agents.

The closest you could come would be to try to keep a whitelist of acceptable ip addresses or user agents and serve different content based on that … but that risks false positives.

Personally, I'd stop catering for old-IE, scrap the #! URIs and the escaped_fragment hack, switch to using pushState and friends, and have the server build the initial view for any given page.

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

数据抓取都用什么工具好些？ python
2020-04-10 12:09

回答 1 已采纳使用selenium吧字数补丁
Linux 如何只抓取多行中的某一个片段? linux
2022-05-30 12:06

回答 1 已采纳 cat file.txt |grep callee |awk -F',' '{print $2}'|awk -F'}' '{print $1}'
php访问国外的一个网页网页抓取json数据 json php
2018-11-15 06:12

回答 1 已采纳问题已解决，token问题，具体看是哪一个token，不同页面的token不同
php屏蔽蜘蛛,如何屏蔽垃圾蜘蛛抓取页面
2021-04-19 02:21

咕咕咕咕侠的博客在服务器日常维护过程中我们经常会发现日志中有很多网络蜘蛛爬取的记录，这些蜘蛛有些是...yisouspider最变态，每次一抓取就是短时间内大量的抓取页面，会造成服务器压力短时间内迅速上升。还有很多无用蜘蛛如Yand...
页面上只有一条链接，而且这个链接是动态的，如何用PHP抓取这个链接进行跳转？ php
2019-07-03 13:28

回答 1 已采纳代码形式 $url = file_get_contents("xxx"); header('Location: '.$url); 也可做nginx重定向
为什么用selenium抓取不到淘宝网页数据？ chrome python selenium 有问必答
2022-01-24 12:19

回答 2 已采纳 xpath写错了
python 如何抓取网页地址保存为图片？ python
2021-11-09 13:05

回答 1 已采纳 PIL ,或者pyautogui
C++软件开发值得推荐的十大高效软件分析工具
2022-10-31 07:35

dvlinker的博客 C++软件开发值得推荐的十大高效软件分析工具
这是我写的某网站抓取标题的爬虫,请问如何控制抓取次数? python 爬虫
2021-09-06 00:23

回答 2 已采纳可以用meta累计请求次数，在后续的请求中获取请求次数。 def parse(self, response): meta = {'crawlCnt': 0} if response.met
Python 爬虫豆瓣250为什么抓取不到英文电影名？ python 有问必答
2021-06-04 08:30

回答 4 已采纳你选的是第一个span标签。 each.a.span.next_sibling.text
如何分析并抓取一个网页满足特定日期条件的所有数据？ python
2022-06-12 17:23

回答 1 已采纳抓取网页数据的几种方法_LiZhen798的博客-CSDN博客_网页数据抓取相信所有个人网站的站长都有抓取别人数据的经历吧，目前抓取别人
10 种网页抓取而不会被阻止的方法
2023-08-06 14:52

无水先生的博客一、说明在数据爬取中，你的scraper又被... 另一个问题是，如果设计错误，抓取工具可能会使网站的服务器因请求而过载，从而导致金钱成本并破坏用户体验。你觉得内容有帮助吗？传播这个词并在推特或LinkedIn上分享。
请问python如何抓取for循环的所有结果？ python
2019-10-16 17:10

回答 1 已采纳如： res=[] for i in ... #循环处理文档的每一行 ......... line=..... #line为每一行的处理结果 res.append
[网络安全自学篇] 九十一.阿里云搭建LNMP环境及实现PHP自定义网站IP访问 (1)
2020-07-25 22:16

Eastmount的博客本来想重新设置一个专栏分享基于阿里云的PHP网站搭建，但考虑到搞安全的也会面临各种靶场及个人网站搭建的情况，所以将这篇文章放置在“网络安全自学篇”中，后续还会分享PHP如何记录后台IP及Python定位经纬度等知识...
抓取网站的5种方法
2020-12-01 10:10

开心的一只小青蛙的博客 Web爬虫（有时也称为蜘蛛）是一种Internet机器人，通常系统地浏览Web索引，以进行Web索引。 Web搜寻器以要访问的URL列表（称为种子）开始。搜寻器访问这些URL时，它会识别页面中的所有超链接，并将它们添加到要访问...
没有解决我的问题, 去提问

悬赏问题

¥15 Python输入字符串转化为列表排序具体见图，严格按照输入
¥20 XP系统在重新启动后进不去桌面，一直黑屏。
¥15 opencv图像处理，需要四个处理结果图
¥15 无线移动边缘计算系统中的系统模型
¥15 深度学习中的画图问题
¥15 java报错:使用mybatis plus查询一个只返回一条数据的sql，却报错返回了1000多条
¥15 Python报错怎么解决
¥15 simulink如何调用DLL文件
¥15 关于用pyqt6的项目开发该怎么把前段后端和业务层分离
¥30 线性代数的问题，我真的忘了线代的知识了

我如何只允许抓取工具访问网站的一部分？

1条回答 默认 最新

悬赏问题

1条回答默认最新