nginx 禁止某些User Agent抓取网站

nginx配置步骤

进入到nginx安装目录下的conf目录，将如下代码保存为 agent_deny.conf

# cd /usr/local/nginx/conf
# vi agent_deny.conf

#禁止Scrapy等工具的抓取

if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}

#禁止指定UA及UA为空的访问

if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) {
return 403;
}

#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}
然后，在网站相关配置中的 server段插入如下代码：

include agent_deny.conf;

保存后，执行如下命令，平滑重启nginx即可：

/usr/local/nginx/sbin/nginx -s reload

当然如果不配置环境直接使用php也可以

//获取UA信息
$ua = $_SERVER['HTTP_USER_AGENT'];
//将恶意USER_AGENT存入数组
$now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT，dedecms等主流采集程序都是空USER_AGENT，部分sql注入工具也是空USER_AGENT
if(!$ua) {
header("Content-type: text/html; charset=utf-8");
wp_die('请勿采集本站，因为采集的站长木有小JJ！');
}else{
    foreach($now_ua as $value )
//判断是否是数组中存在的UA
    if(eregi($value,$ua)) {
    header("Content-type: text/html; charset=utf-8");
    wp_die('请勿采集本站，因为采集的站长木有小JJ！');
    }
}

apache屏蔽恶意 User Agent

使用 .htaccess 屏蔽 User Agent 的方法很多，这里使用 rewrite 规则把这些 User Agent 转移走，以达到屏蔽的效果。

RewriteCond %{HTTP_USER_AGENT} “.*EmbeddedWB.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*QunarBot.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “.*Windows 98.*” [OR]
RewriteCond %{HTTP_USER_AGENT} “^Mozilla/4.0$”
RewriteRule ^(.*)$ http://www.111cn.net/

使用 .htaccess 需要了解一些正则表达式语法，以正确匹配字符串。

如果你觉得有用，屏蔽恶意 User Agent 前，不妨先分析一下自己的网站日志，根据自己的需要定制。可以使用 Firefox+User Agent Switcher 测试效果，Chrome 也有类似的切换 User Agent 的扩展程序

时间： 2024-09-20 11:00:37

nginx 禁止某些User Agent抓取网站的相关文章

JAVA使用爬虫抓取网站网页内容的方法_java

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下以下提供二种方法,一种是用apache提供的包．另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar

C# Winform项目,如何实现定期抓取网站中指定栏目中的内容

问题描述 C# Winform项目,如何实现定期抓取网站中指定栏目中的内容在C# Winform项目中,想通过"网络爬虫"定时抓取某个网站中的指定某个菜单中的内容(指定某个菜单的内容有可能是列表,也有可能纯文字或文字加图片的说明内容). 注:指定某个菜单中的内容是列表的话,"网络爬虫"既可以抓取列表也可以抓取列表对应的每条明细内容请问各位,有没有能实现上述功能"网络爬虫"的相关资料,最好能提供"网络爬虫"相关DEMO.谢谢

socket-c语言正则表达式抓取网站的&amp;lt;title&amp;gt;

问题描述 c语言正则表达式抓取网站的<title> 本程序的功能是搜索网站的字段的值遗憾的是并不通用:ps:我也不知道为什么失败问题1:正则表达式或运算消除标签大小写后匹配不到字符串问题2:正则表达式实现零宽断言后发现匹配不到字符串问题3:在科大官网上测试成功在其他网站可能会失败 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/types.h

php抓取网站图片并保存的实现方法_php技巧

php如何实现抓取网页图片,相较于手动的粘贴复制,使用小程序要方便快捷多了,喜欢编程的人总会喜欢制作一些简单有用的小软件,最近就参考了网上一个php抓取图片代码,封装了一个php远程抓取图片的类,测试了一下,效果还不错分享给大家,代码如下: 以上就是为大家分享的php抓取网站图片并保存的实现方法,希望对大家的学习有所帮助.

抓取网站数据报Connection timed out

问题描述做了一个抓取网站的功能,用的是httpclient.在自己的电脑上运行,可以抓取到.但是把工程发布到服务器上,就会报I/O exception (java.net.ConnectException) caught when processing request: Connection timed out请问,是什么原因啊? 解决方案目测判断:你的服务器与目标网站没有成功连接.排查方法:1.检查目标地址,确保服务器上,你访问的url与本地一致(如果是通过配置文件配置,请检查配置文件):

Python使用scrapy抓取网站sitemap信息的方法_python

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法.分享给大家供大家参考.具体如下: import re from scrapy.spider import BaseSpider from scrapy import log from scrapy.utils.response import body_or_str from scrapy.http import Request from scrapy.selector import HtmlXPathSelector c

利用NodeJS和PhantomJS抓取网站页面信息以及网站截图_javascript技巧

利用PhantomJS做网页截图经济适用,但其API较少,做其他功能就比较吃力了.例如,其自带的Web Server Mongoose最高只能同时支持10个请求,指望他能独立成为一个服务是不怎么实际的.所以这里需要另一个语言来支撑服务,这里选用NodeJS来完成. 安装PhantomJS 首先,去PhantomJS官网下载对应平台的版本,或者下载源代码自行编译.然后将PhantomJS配置进环境变量,输入 $ phantomjs 如果有反应,那么就可以进行下一步了. 利用PhantomJS进行简

Python使用代理抓取网站图片（多线程）_python

一.功能说明:1. 多线程方式抓取代理服务器,并多线程验证代理服务器ps 代理服务器是从http://www.cnproxy.com/ (测试只选择了8个页面)抓取2. 抓取一个网站的图片地址,多线程随机取一个代理服务器下载图片二.实现代码复制代码代码如下: #!/usr/bin/env python#coding:utf-8 import urllib2import reimport threadingimport timeimport random rawProxyList = []ch

合理优化网站结构吸引蜘蛛深入抓取网站内容

蜘蛛来到网站是好事,但是通过蜘蛛访问记录我却发现了很大的一个问题,往往蜘蛛来到网站之后抓取了4,5个页面就离开了,这是怎么一回事呢?相信很多站长都感觉到从6月份的事件之后,百度蜘蛛很不稳定吧,我的网站也是一样,从6月份过后蜘蛛每次来了抓取几个页面就走了,这样网站的收录也一直没有提升上去,最后我对网站进行了一次大检查,然后对网站的链接进行了整理,还别说,经过整理后的网站,蜘蛛每次来抓取的页面达到了20.30,下面我来分享一下我的检查方法与整治方法. 我觉得蜘蛛刚开始不深入的原因第一种可能是导航链接

猜你喜欢

Win8设备DPI设置过大后的还原办法

现在的消费类电子设备屏幕越做越小,分辨率却反而在往上增加,例如 Surface Pro,10.6 寸的屏幕,1080p 的全高清显示,会让 Windows 显示的文字变得异常的小.这个现象其实是因为屏 ...

配置weblogic的connection pool和Data Source

connection|web os version:windwos2000 serverhostname:mytestdatabase:oracle 9.2.0.1port:1521table: te ...

J2ME 3D技术简介

3D技术对我们来说已经非常熟悉了,最常用的3D API有OpenGL和Microsoft的Direct 3D,在桌面游戏中早已广泛应用.对于J2ME程序而言,Mobile 3D Graphics AP ...

java读取properties文件的方法

本文实例讲述了java读取properties文件的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 1 ...

Win7出现蓝屏错误代码0x000000c2怎么办

Win7系统电脑出现蓝屏错误代码0x000000c2的解决方法. 解决方法如下: 一.系统问题,使用系统安装光盘修复系统或者在系统里使用sfc/ SCANNOW修复系统;如果还是不能解决故障的话就 ...

windows7系统实现快速移动文件或文件夹的方法

第一种方法: ❶ 选中要移动的文件或文件夹. ❷ 单击"组织"按钮,在打开的菜单中选择"剪切"命令,或者右键单击需要移动的文件或文件夹,在弹出的快捷菜单中选 ...

c# 操作servU 管理用户权限（200分相送）

问题描述本人想通过C#设置ServU中某个人的访问权限.譬如增加某个人的访问路径(此人已经存在),特请求帮助!!!声明:本人只是为了更好的管理我的服务器,没有其他非分之想,多谢大家帮助!!! 解决方 ...

开源框架思索-----一篇醍醐灌顶的好文章

本文源于IT168 作者陈雄华 http://tech.it168.com/o/2006-12-13/200612131101722.shtml 1 空前繁荣的开源世界大致2000年以前,Java ...

IBM沃森对哈利波特各大主角的人格分析

你可能知道沃森具备控制危险的能力,但你知道它也有非同凡响的电影分析能力吗?沃森能通过分析书面文本,鉴别出恐惧.欢乐.自信和开放等情感色彩. 它还能根据大五人格理论(外倾性.神经质或情绪稳定性.开放性. ...

ios-iOS 播放视频的框架能直接播放被转成data数据后的视频吗，而不用写成视频文件去调用播放

问题描述 iOS 播放视频的框架能直接播放被转成data数据后的视频吗,而不用写成视频文件去调用播放 iOS 播放视频的框架能直接播放被转成data数据后的视频吗,而不用写成视频文件去调用播放 ...

数据库表结构更改，求大神！！

问题描述数据库表结构更改,求大神!! 我现在要给一张表更改一个索引,由于表中的数据量过大,加这个索引需要半个小时,请问在此期间,会不会影响系统运行呢,因为这个索引对系统运行效率非常重要,如果没有这个 ...

MySQL的Grant命令[转]

本文实例,运行于 MySQL 5.0 及以上版本. MySQL 赋予用户权限命令的简单格式可概括为: grant 权限 on 数据库对象 to 用户一.grant 普通数据用户,查询.插入.更新 ...

2016半年盘点：最重要的10个技术合作伙伴关系

合作起来合作是高科技产业的命脉,有助于厂商凭借新技术进入到新市场中,让他们在更广泛的群体面前展示他们的产品.通常合作伙伴关系会让厂商获得互补性的产品组合,向客户提供更全面的解决方案. 通常情况下,合 ...

java-android日历问题：在日历的月份中+1

问题描述 android日历问题:在日历的月份中+1 我正在用下边的代码 Calendar cal = Calendar.getInstance(); System.out.println(" ...

《系统分析与设计方法》练习计算投资回收分析

练习计算投资回收分析 •一个系统投资￥300万,第一年的收益30万,维护费用100万:第二年的收益200万:维护费用100万:第三年的收益300万,维护费用100万:第四年的收益400万,维护费用10 ...

Dremel - Interactive Analysis of WebScale Datasets

http://highscalability.com/blog/2010/8/4/dremel-interactive-analysis-of-web-scale-datasets-data-as-a ...

解决oracle客户端可以连接11g rac vip，但是不能连接scan ip问题

local不用动,remote_listern按我说的设置一下,应该就可以了! # Public Network - (eth0) 10.4.56.39 syquadb1 10.4.56.40 ...

简明Python3教程(A Byte of Python 3)

关键字:[A Byte of Python v1.92(for Python 3.0)] [A Byte of Python3] 简明Python教程 Python教程简明Python3教程 ...

使用DDoS deflate开源软件防御和减轻DDoS攻击

今天风信网为大家介绍一款免费的防御和减轻DDoS攻击的脚本,该软件为开源软件,所以大家可以放心的使用啦! 这是在互联网上找到的针对该软件的介绍说明:DDoS deflate是一款免费的用来防御和减轻D ...

ucenter通信原理分析_php技巧

1.用户登录discuz,通过logging.php文件中的函数uc_user_login对post过来的数据进行验证,也就是对username和password进行验证. 2.如果验证成功,将调用位 ...

Google收录减少排名下降原因分析

google上开始下降的时间是从前天开始的,前天查的时候发现收录数是454,比之前的476少了22篇,关键字E商伯乐的排名也由原来的第一位下跌到了12位,昨天查的时候收录数跌倒了300,关键字E商伯乐 ...

网站增加外链的方法

第一:注册百度帐号第二:输入地址:baike.baidu.com ,输入关键字,寻找相关词条,点击编辑词条,进去以后,首先好好的拜读一下这个词条的完整性! 第三:有效编辑词条有以下几种方法: 1.错 ...

java ftp 服务器

问题描述求一份ftp服务器源代码,最好是java编写的,有图形界面,实现了FTP的基本功能就行.请将程序发至:739334687@qq.com谢谢啦!

用uploadify3.2.1上传图片，在后台servlet如何取动态传过来的值

问题描述 jsp页面如下XML/HTMLcode?12345678910111213141516171819202122232425262728293031323334353637<%@page ...

listview-C#ListView 我列的宽度我自己拖动好了，为什么运行起来和我拖好的不一样

问题描述 C#ListView 我列的宽度我自己拖动好了,为什么运行起来和我拖好的不一样都挤在一块了.我把listview字体改成宋体 9pt 就行,改大了宽度就变了解决方案你代码中有重新设置过 ...

朱虹：2015年我国广播电视全部实现数字播出

新华网北京9月24日电国家广电总局新闻发言人朱虹24日做客新华网,向广大网友介绍新中国成立60年以来,我国广播影视业所取得的成就.访谈中朱虹表示,我国在电视数字化方面花的功夫很大,涉及面很广.201 ...

spring-Struts 关于在jsp中获取 xxxAction中model值的问题

问题描述 Struts 关于在jsp中获取 xxxAction中model值的问题如图: 问题也在图上了解决方案解决了, 因为栈顶的模型此时是空的(oldmodel的引用指向了newmodel ...

网络课堂让人们轻而易举变身数据科学家

很多企业都纷纷开始关注大数据和数据分析,但是人才难寻啊!事实上,要把一个编程新人训练成一个能力卓越的数据科学家是一件很简单的事,只需要几台云计算服务器,然后再跟数据专家在网上学上几周机器学习就可以了. ...

数据中心超高效冷冻水系统的优化

数据中心冷却设计的主要目标一直是通过冗余实现备份的可靠性.最重要的是,冷却设备必须维持关键环境条件下的精确的温度和湿度--不管其是如何通过现有的冷却系统策略来实现的.这导致了不必要的能源消耗使用.在这 ...

红杉资本莫瑞茨：阿里上市硅谷的每个人都需要注意到它

阿里巴巴本周IPO的最大受益者可能是风投公司红杉资本.该公司董事长迈克尔·莫瑞茨(Michael Moritz)在接受<华尔街日报>采访时介绍,早在几年前,他们也低调地投资了阿里巴巴.这家 ...

热搜