2 ggjge ggjge 于 2014.12.14 17:14 提问

nginx如何屏蔽爬虫(YisouSpider、Googlebot等),有酬谢 50C

网站被爬虫爬得扛不住了。。想把这些爬虫都屏蔽了。。

nginx下配有多个站点。。nginx.conf里是没有server字段的。。只有各个站点的.conf文件里有。。

我按照网上的说法,在nginx.conf的server字段(nginx.conf的server字段也是我自己加的)中加入了以下内容:
if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {

return 403;

}

但是用curl -I -A "Googlebot" www.XXX.com,仍然没有返回403。。
太不靠谱了。。
求高手指点。。

另外robots.txt也不好使。。那个东西全靠自觉。。我想要能主动禁止他们。。。因为有的流氓爬虫显然没法用那个解决

nginx.conf内容如下:

#user nobody;
worker_processes 2;

#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;

#pid文件的位置
pid nginx.pid;

events {
worker_connections 10240;
}

http {

include       mime.types;
default_type  application/octet-stream;

log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                  '$status $body_bytes_sent "$http_referer" '
                  '"$http_user_agent" "$http_x_forwarded_for"';

#access_log  logs/access.log  main;

sendfile        on;
#tcp_nopush     on;

#keepalive_timeout  0;
keepalive_timeout  65;

#gzip  on;

    #   open(OUTFILE, ">>/home/wamdm/perl_learn/a");
    #   print OUTFILE ($r->uri,"\n");
    #   close (OUTFILE);


perl_set $fix_upper_lower_case '
    use File::Basename;
    sub {
        my $r = shift;
        my $uri = $r->uri;
        my $filepath = $r->filename; 
        my $uri_prefix = substr($uri, 0, rindex($uri, "/") + 1);
        my $dir = dirname($filepath);
        my $filename = basename($filepath);
        opendir(my $dh, $dir) || die ("~~fail to open dir $dir");
        my @files = grep { /$filename/i && -f "$dir/$_" } readdir($dh);
        closedir($dh);
        if (@files > 0) {
            return "$uri_prefix@files[0]";
        }
        return $r->uri;
    }   
';  

server {

       if ($http_user_agent ~* "MJ12bot|qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|YandexBot|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") 
        { 
            return 403; 

        }    

listen 80;

# server_name localhost;

    #charset koi8-r;

    #access_log  logs/host.access.log  main;

# location / {
# root html;
# index index.html index.htm;
# }

    #error_page  404              /404.html;

    # redirect server error pages to the static page /50x.html
    #

# error_page 500 502 503 504 /50x.html;
# location = /50x.html {
# root html;
# }

    # proxy the PHP scripts to Apache listening on 127.0.0.1:80
    #
    #location ~ \.php$ {
    #    proxy_pass   http://127.0.0.1;
    #}

    # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
    #
    #location ~ \.php$ {
    #    root           html;
    #    fastcgi_pass   127.0.0.1:9000;
    #    fastcgi_index  index.php;
    #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name;
    #    include        fastcgi_params;
    #}

    # deny access to .htaccess files, if Apache's document root
    # concurs with nginx's one
    #
    #location ~ /\.ht {
    #    deny  all;
    #}
}


# another virtual host using mix of IP-, name-, and port-based configuration
#
#server {
#    listen       8000;
#    listen       somename:8080;
#    server_name  somename  alias  another.alias;

#    location / {
#        root   html;
#        index  index.html index.htm;
#    }
#}


# HTTPS server
#
#server {
#    listen       443;
#    server_name  localhost;

#    ssl                  on;
#    ssl_certificate      cert.pem;
#    ssl_certificate_key  cert.key;

#    ssl_session_timeout  5m;

#    ssl_protocols  SSLv2 SSLv3 TLSv1;
#    ssl_ciphers  HIGH:!aNULL:!MD5;
#    ssl_prefer_server_ciphers   on;

#    location / {
#        root   html;
#        index  index.html index.htm;
#    }
#}

}

站点的conf文件如下:
server {
listen 80;
server_name computer.cdblp.cn;
access_log /home/wamdm/sites/logs/computer.access.log main;
error_log /home/wamdm/sites/logs/computer.error.log error;

root /home/wamdm/sites/searchscholar/computer;
index index.php index.html index.htm;

rewrite  "^/conference/([^/]+)$" /con_detail.php?con_title=$1 last;
rewrite  "^/conference/([^/]+)/$" /con_detail.php?con_title=$1 last;

if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {

return 403;

}

#大小转换的补丁,处理从windows平台(大小写不敏感)迁移到ubuntu(大小写敏感)的站点
#对于需要url重写生效的请求失效
#if ( !-e $request_filename ) {
#   rewrite ^(.*)$ $fix_upper_lower_case last;
#}

#location /{
 #   include agent_deny.conf;

# }

#favicon.ico不用打日志
location = /favicon.ico {
    log_not_found off;
    access_log off;
}

#不允许访问隐藏文件
location ~ /\. {
    deny all;
    access_log off;
    log_not_found off;
}

#访问图片,flash文件等不用打日志
location ~ .*\.(gif|jpg|jpeg|png|bmp|swf)$ {
    expires      7d; #文件返回的过期时间是7天
    access_log off;
}

#访问js和css文件不用打日志
location ~ .*\.(js|css)?$ {
    expires      1d; #文件返回的过期时间是1天
    access_log off;
}


#设置php-cgi
location ~ [^/]\.php(/|$) {
    fastcgi_split_path_info ^(.+?\.php)(/.*)$;
    #拦截不存在的php页面请求
    if (!-f $document_root$fastcgi_script_name) {
        return 404;
    }

}

}

7个回答

showbo
showbo   Ds   Rxr 2014.12.14 17:33

配置robots.txt禁止爬虫来爬就好了吧。。不过要是碰到流氓爬虫不理会robots.txt的配置,谷歌百度搜狗这种大部分是遵守的

如何使用robots.txt及其详解

 User-agent: *
Disallow: /
ggjge
ggjge 回复showbo: 就没有一个方法能配置一下nginx把这些爬虫禁止掉么??
3 年多之前 回复
showbo
showbo 回复ggjge: 那你悲剧了,度娘不遵守robots.txt。淘宝也加了禁止百度蜘蛛的,你site下taobao.com也收录了不少。不行你使用百度的站长工具,http://zhanzhang.baidu.com/在网站分析,抓取频次里面现在百度捉去次数。
3 年多之前 回复
ggjge
ggjge 回复showbo: log里还是有啊。。像这样123.125.71.29 - - [15/Dec/2014:14:01:57 +0800] "GET /domain_detail.php?clc=TP393.07 HTTP/1.1" 200 266296 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" "-"。。。这是神马情况
3 年多之前 回复
showbo
showbo 回复ggjge: 检查你的日志文件。。
3 年多之前 回复
ggjge
ggjge 回复showbo: 那我能从什么地方看出来他们不爬了呢
3 年多之前 回复
showbo
showbo 回复ggjge: 是放在根目录下,注意文件名称,谷歌和百度会检查robots.txt文件,只要你禁止他们爬行
3 年多之前 回复
ggjge
ggjge 是放在网站前端代码的根目录下么?
3 年多之前 回复
ggjge
ggjge 我试了。。依然没用。。。
3 年多之前 回复
devmiao
devmiao   Ds   Rxr 2014.12.14 18:58

关键是两条,一个是robots.txt禁止爬虫,这个是否配置正确。
参考:http://bar.baidu.com/robots/
另一个是查询下访问的蜘蛛的ip是不是来自google。因为一些山寨流氓搜索引擎,比如某数字公司,会仿冒知名公司的useragent,同时完全不管robots.txt的存在。对于这些流氓搜索引擎,只能屏蔽ip了。

ggjge
ggjge 我试了。。依然不行。。。 wamdm@WAMDM52:~$ curl -I -A "Googlebot" cdblp.cn/index.php HTTP/1.1 200 OK Server: nginx/1.4.1 Date: Mon, 15 Dec 2014 03:47:08 GMT Content-Type: text/html Connection: keep-alive X-Powered-By: PHP/5.4.10 这是神马情况。。那个robots.txt是放在网页前端代码的根目录下么?
3 年多之前 回复
save4me
save4me   Ds   Rxr 2014.12.15 10:28

添加此配置之后,可以通过nginx -t命令先验证一下配置语法是否有问题,若没有问题,则可以通过nginx -s reload来应用配置。
只有reload之后,配置才生效

ggjge
ggjge 我有重启nginx的。。应该是可以的吧。。。
3 年多之前 回复
ggjge
ggjge   2014.12.15 11:50

我试了。。依然不行。。。
wamdm@WAMDM52:~$ curl -I -A "Googlebot" cdblp.cn/index.php
HTTP/1.1 200 OK
Server: nginx/1.4.1
Date: Mon, 15 Dec 2014 03:47:08 GMT
Content-Type: text/html
Connection: keep-alive
X-Powered-By: PHP/5.4.10

这是神马情况。。那个robots.txt是放在网页前端代码的根目录下么?

ggjge
ggjge 回复save4me: 那还有什么别的办法么。。可以主动的禁止爬虫。。。
3 年多之前 回复
save4me
save4me robots.txt是放在网站根目录,但是这个是要爬虫自己解析,然后不爬你不想要它爬的页面。就好像一个人在背后贴个字条说不要打我,文明的人看到自然不会打,但是不是说所有人都不打他。打了又能怎样。robots.txt也是一样的道理。
3 年多之前 回复
save4me
save4me   Ds   Rxr 2014.12.15 11:51

把引号改成括号
if ($http_user_agent ~* (qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot)) {
return 403;
}

ggjge
ggjge 回复save4me: 可是我用chrome试了访问我的站点cdblp.cn。。。可以返回正常结果阿。。并且我的nginx的log里也有显示我的访问请求。。会不会是因为我的nginx下配有多个站点的原因呢?你要不用你的浏览器访问一下试试看行么?
3 年多之前 回复
save4me
save4me 对的,我用你的代码,用http://www.phpstudy.net/phpstudy/phpfind.zip个免安装的环境测试,在nginx的server下复制了你的设置。在Chrome直接访问,可以正常打开网页,如果模拟User-Agent为Googlebot,返回403。
3 年多之前 回复
ggjge
ggjge 回复save4me: 你的意思是我设置的这些返回403的条件已经生效了么?我的nginx是有rewrite的。。很多页面都有重写规则。。跟这个有关系么?
3 年多之前 回复
save4me
save4me 因为你的条件里面有空格,所以你最开始的写法是正确的,我刚才测试过了,在Chrome中,模拟把User-Agent设置成Googlebot,返回403。你用浏览器试试,另外测试一下nginx是否开启了rewrite。
3 年多之前 回复
ggjge
ggjge 这样启动nginx的时候直接报错了。。。求靠谱啊大哥。。。。
3 年多之前 回复
save4me
save4me   Ds   Rxr 2014.12.16 09:32

测试了你的网站,确实没有起作用。
你说你在nginx.conf的server字段(nginx.conf的server字段也是我自己加的),这个server字段是怎么写的?你把if ($http_user_agent ~* 的这个判断加到各个站点的.conf文件里面(当然你可以先添加到cdblp.cn的这个server节点里面测试一下)。可能是因为你自己建的server节点和cdblp.cn的server节点是相互独立的,所以没起作用。
如果还有问题,可以提出来。

ggjge
ggjge 写法就是if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") { return 403; }。。直接写在server{...}里,没有在if的外面加location /之类的。。不知道用不用加额。。不过之前好像试过在if外面包一层location也是不行的。。。会是因为设了多站点所以配置跟普通的nginx不一样的原因么。。如果是的话应该怎么配呢?
3 年多之前 回复
ggjge
ggjge 我试过了。。把这个if语句加到站点的conf文件里server字段下。。还是不行的。。写法就是
3 年多之前 回复
save4me
save4me   Ds   Rxr 2014.12.16 13:39

我的配置是这样的,直接在server节点下面写的,没有外加location。你的server节点是怎么写的?可以贴出来看看,当然,可以把涉及到安全的部分设置替换掉。

power by phpStduy 2013 by 网址:www.phpStudy.net

#user nobody;
worker_processes 1;

#error_log logs/error.log;
#error_log logs/error.log notice;
#error_log logs/error.log info;

#pid logs/nginx.pid;

events {
worker_connections 1024;
}

http {
include mime.types;
default_type application/octet-stream;

#log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
#                  '$status $body_bytes_sent "$http_referer" '
#                  '"$http_user_agent" "$http_x_forwarded_for"';

#access_log  logs/access.log  main;

sendfile        on;
#tcp_nopush     on;

#keepalive_timeout  0;
keepalive_timeout  650;
#tcp_nodelay on;
fastcgi_connect_timeout 3000;
fastcgi_send_timeout 3000;
fastcgi_read_timeout 3000;
fastcgi_buffer_size 128k;
fastcgi_buffers 4 128k;
fastcgi_busy_buffers_size 256k;
fastcgi_temp_file_write_size 256k;

#gzip  on;
gzip on;
gzip_min_length  1k;
gzip_buffers     4 32k;
gzip_http_version 1.1;
gzip_comp_level 2;
gzip_types       text/plain application/x-javascript text/css application/xml;
gzip_vary on;
gzip_disable "MSIE [1-6].";

server_names_hash_bucket_size 128;
client_max_body_size     100m; 
client_header_buffer_size 256k;
large_client_header_buffers 4 256k;

server {
    #charset koi8-r;

    #access_log  logs/host.access.log  main;

    listen 80 default;
    ## SSL directives might go here
    server_name 127.0.0.1 localhost; ## Domain is here twice so server_name_in_redirect will favour the www
    root G:\WWW;

    location / {
        index index.html index.php; ## Allow a static html file to be shown first
        try_files $uri $uri/ @handler; ## If missing pass the URI to Magento's front handler
        expires 30d; ## Assume all files are cachable
    }

    location  /. { ## Disable .htaccess and other hidden files
        return 404;
    }

    location ~ .php/ { ## Forward paths like /js/index.php/x.js to relevant handler
        rewrite ^(.*.php)/ $1 last;
    }

    location ~ .php$ { ## Execute PHP scripts
        if (!-e $request_filename) { rewrite / /index.php last; } ## Catch 404s that try_files miss

        expires        off; ## Do not cache dynamic content
        fastcgi_pass   127.0.0.1:9000;
        #fastcgi_param  HTTPS $fastcgi_https;
        fastcgi_param  SCRIPT_FILENAME  $document_root$fastcgi_script_name;
        include        fastcgi_params; ## See /etc/nginx/fastcgi_params
    }

    if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") {
        return 403;
    }

    error_page   500 502 503 504  /50x.html;
    location = /50x.html {
        root   html;
    }
}

}

ggjge
ggjge 我把nginx.con和站点的conf粘在问题里了。。麻烦您帮我看看吧。。谢谢!
3 年多之前 回复
ggjge
ggjge 恩。。怎么贴代码啊。。。我这里输入框只有一行额。。。
3 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!