Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例_nginx

复制代码 代码如下:

#全局配置
limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m;

#某个server中
 limit_req zone=anti_spider burst=30 nodelay;
 if ($http_user_agent ~* "xxspider|xxbot") {
 set $anti_spider $http_user_agent;
}

超过设置的限定频率,就会给spider一个503。
上述配置详细解释请自行google下,具体的spider/bot名称请自定义。

附:nginx中禁止屏蔽网络爬虫

复制代码 代码如下:

server { 
        listen       80; 
        server_name  www.xxx.com; 
 
        #charset koi8-r; 
 
        #access_log  logs/host.access.log  main; 
 
        #location / { 
        #    root   html; 
        #    index  index.html index.htm; 
        #} 
    if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") { 
                return 403; 
        } 
 
    location ~ ^/(.*)$ { 
                proxy_pass http://localhost:8080; 
        proxy_redirect          off; 
        proxy_set_header        Host $host; 
        proxy_set_header        X-Real-IP $remote_addr; 
        proxy_set_header       X-Forwarded-For   $proxy_add_x_forwarded_for; 
        client_max_body_size    10m; 
        client_body_buffer_size 128k; 
        proxy_connect_timeout   90; 
        proxy_send_timeout      90; 
        proxy_read_timeout      90; 
        proxy_buffer_size       4k; 
        proxy_buffers           4 32k; 
        proxy_busy_buffers_size 64k; 
        proxy_temp_file_write_size 64k; 
    } 
     
        #error_page  404              /404.html; 
 
        # redirect server error pages to the static page /50x.html 
        # 
        error_page   500 502 503 504  /50x.html; 
        location = /50x.html { 
            root   html; 
        } 
 
        # proxy the PHP scripts to Apache listening on 127.0.0.1:80 
        # 
        #location ~ \.php$ { 
        #    proxy_pass   http://127.0.0.1; 
        #} 
 
        # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000 
        # 
        #location ~ \.php$ { 
        #    root           html; 
        #    fastcgi_pass   127.0.0.1:9000; 
        #    fastcgi_index  index.php; 
        #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name; 
        #    include        fastcgi_params; 
        #} 
 
        # deny access to .htaccess files, if Apache's document root 
        # concurs with nginx's one 
        # 
        #location ~ /\.ht { 
        #    deny  all; 
        #} 
    } 

可以用 curl 测试一下

复制代码 代码如下:

curl -I -A "qihoobot" www.xxx.com

时间: 2024-11-01 12:56:44

Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例_nginx的相关文章

Nginx、Apache、Lighttpd禁止目录执行php配置示例_nginx

为了加强网站安全性,我们除了限制目录权限外,还需要禁用某此目录禁止执行php.在IIS中可以直接将目录的脚本执行权限去掉,而针对非windows系统如何做呢? 接下来的文章将简单的介绍不同的webserver如何禁用php执行.... Apache: 复制代码 代码如下: <Directory /website/attachments>     php_flag engine off </Directory> Nginx: 禁用单个目录: 复制代码 代码如下: location /

【Python爬虫9】Python网络爬虫实例实战

爬Google搜索引擎 爬Facebook和Linkein 1自动化登录Facebook 2提取Facebook的API数据 3自动化登录Linkedin 爬在线商店Gap 爬宝马官网 爬取Google真实的搜索表单 爬取依赖JavaScript的网站Facebook 爬取典型在线商店Gap 爬取拥有地图接口的宝马官网 1.爬Google搜索引擎 # -*- coding: utf-8 -*- import sys import urllib import urlparse import lxm

《Python爬虫开发与项目实战》——第3章 初识网络爬虫 3.1 网络爬虫概述

第3章 初识网络爬虫 从本章开始,将正式涉及Python爬虫的开发.本章主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫:另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能力. 3.1 网络爬虫概述 本节正式进入Python爬虫开发的专题,接下来从网络爬虫的概念.用处与价值和结构等三个方面,让大家对网络爬虫有一个基本的了解.3.1.1 网络爬虫及其应用 随着网络的迅速发展,万维网成为大量信息的载体,如

《用Python写网络爬虫》——第1章 网络爬虫简介 1.1 网络爬虫何时有用

第1章 网络爬虫简介 本章中,我们将会介绍如下主题: 网络爬虫领域简介: 解释合法性质疑: 对目标网站进行背景调研: 逐步完善一个高级网络爬虫. 1.1 网络爬虫何时有用 假设我有一个鞋店,并且想要及时了解竞争对手的价格.我可以每天访问他们的网站,与我店铺中鞋子的价格进行对比.但是,如果我店铺中的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花费大量的时间,甚至难以实现.再举一个例子,我看中了一双鞋,想等它促销时再购买.我可能需要每天访问这家鞋店的网站来查看这双鞋是否降价,也许需要

《用Python写网络爬虫》——1.2 网络爬虫是否合法

1.2 网络爬虫是否合法 网络爬虫目前还处于早期的蛮荒阶段,"允许哪些行为"这种基本秩序还处于建设之中.从目前的实践来看,如果抓取数据的行为用于个人使用,则不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了. 世界各地法院的一些案件可以帮助我们确定哪些网络爬虫行为是允许的.在Feist Publications, Inc.起诉Rural Telephone Service Co.的案件中,美国联邦最高法院裁定抓取并转载真实数据(比如,电话清单)是允许的.而在澳大利亚,Tel

Nginx下支持Thinkphp URL Rewrite的配置示例_nginx

概述 Nginx服务器现在已经成为相当流行的开源Web服务器,很多生产环境也都在使用Nginx服务器.现在做项目大多数时候都是在使用ThinkPHP,但是Nginx默认不支持ThinkPHP的pathinfo模式,需要进行一定的配置. Nginx配置文件 # # The default server # server { listen 80 default_server; #server_name www.example.com; #charset koi8-r; #access_log log

Nginx限制带宽配置示例_nginx

示例一: 复制代码 代码如下: http {    limit_rate 25k;                              #每个连接的速度限制    limit_zone to_vhost $server_name 1m;         #每个域名的总带宽限制    limit_conn to_vhost 30;                      #每个连接可以开多少个线程 } 示例二: 用Nginx做下载服务的时候,可能会做下载速度限制,这个Nginx可以做到:

nginx中域名、目录的301重定向配置示例_nginx

301重定向不陌生, 有时候有需求把某目录整个重定向到一个二级域名,或者不带www的顶级域名请求全部重定向到带www的二级域名.如果是Apache,需要配置.htaccess,nginx不支持,需要在配置文件里面使用rewrite指令来实现. 顶级域名重定向到www 复制代码 代码如下: server {  server_name jb51.net;  rewrite ^/(.*)$ http://www.jb51.net/$1 permanent;  } 如上配置,所以jb51.net的请求都

Nginx实现根据域名http、https分发配置示例_nginx

tomcat端口:8080 做好虚拟主机 nginx端口:80 根据域名分派 在conf/nginx.conf中的http中增加 复制代码 代码如下: include www.jb51.net.conf 新建conf/www.jb51.net.conf,内容如下: 复制代码 代码如下: server { listen 80; server_name www.jb51.net; location / {     proxy_pass http://127.0.0.1:8080;     proxy