如何防止Robot骚扰你的网页

今早在www.aspalliance.com上看到一篇文章(Stopping Automated Web Robots Visiting ASP/ASP.NET Websites
,http://aspalliance.com/1018_Stopping_Automated_Web_Robots_Visiting_ASPASPNET_Websites),
主要是讲了下如何采取一些措施,防止robot过度去抓你的网站。看了一下,有的东西还是值得探讨下的,现归纳如下:

1、辨认ROBOT的一些参考标准
    Large numbers of requests from a single IP address or a range of IP addresses within the same subnet (i.e. the first three numbers of the IP address are identical).
·         Large numbers of requests for database driven content compared to the rest of the website.

·         Many requests made from browsers that do not support ASP Sessions.

·         Lots of and increasing numbers of website visitors, but no corresponding increase in transactions (e.g. sales!).

·         Large numbers of spam or automated requests being generated from online forms.
2、到http://www.robotstxt.org/wc/norobots.html上,可以找到一个组织提出的防御robot的建议标准(可惜这个不是什么权威标准拉,没什么约束力),在这里有一些平常我们可以用到的例子和方法,主要是搞一个robot.txt文件,放在网站根目录下,比如
User-agent: *
Disallow: /
禁止所有robot

允许所有的robot访问:

User-agent: *
Disallow:

User-agent: *
Disallow: /cyberworld/map/      不允许robot探访/cyberworld/map目录下的文件

User-agent: cybermapper    允许cybermapper这个robot
Disallow:

User-agent: *
Disallow: /cyberworld/map/
Disallow: /tmp/
Disallow: /foo.html       不允许访问foo.html这个文件了

3、如果不方便设置robot.txt的话,还可以在meta里做手脚,比如用
<meta name="robots" content="noindex, nofollow">
可以单独对某页设置防御robot

4 减慢robot的疯狂访问。如果发现robot疯狂对你的站访问,而造成效率的降低的话,可以减低
robot的访问,
User-agent: Slurp
Crawl-delay: 10

是针对yahoo的,具体可以到http://help.yahoo.com/help/us/ysearch/slurp/slurp-03.html
去看详细情况。但其实有的robot很智能的,有时不会那么蠢真的一拥而上地去访问。

时间: 2024-11-08 23:05:58

如何防止Robot骚扰你的网页的相关文章

Discuz论坛的SEO优化方案

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 设discuz已启用伪静态功能,使用5.0/5.5 GBK 版本: 1.meta,content 优化 2.内容页的网页复制问题 3.robots.txt使用及其它 更新 discuz5.5的robots.txt问题 DZ 禁止一个版面帖子的收录的补充 一.meta的优化 discuz的后台可以对meta信息进行设置,甚至可以添加自己的头部信

网页:Meta标签详解

网页|详解 引言 您的个人网站即使做得再精彩,在"浩瀚如海"的网络空间中,也如一叶扁舟不易为人发现,如何推广个人网站,人们首先想到的方法无外乎以下几种: ● 在搜索引擎中登录自己的个人网站 ● 在知名网站加入你个人网站的链接 ● 在论坛中发帖子宣传你的个人网站 很多人却忽视了HTML标签META的强大功效,一个好的META标签设计可以大大提高你的个人网站被搜索到的可能性,有兴趣吗,谁我来重新认识一下META标签吧! META标签是HTML语言HEAD区的一个辅助性标签,它位于HTML文

教你增加网页曝光率的几招秘诀

网页 以下所提出的几项秘诀,虽然有助提高大家网站曝光率,但一个网站的内容,才是吸引人潮的最基本要素,大家切记.切记! Title不可少 网站每一页都要标上Title,只在首页标明是不够的.< Title>也是全文检索的Search Engines如AltaVista.Infoseek.Excite.Lycos等的搜索重点之一.< Title>的语法如下: < Title>A Simpe HTML Example< /Title> 例如有一个Internet

在你的主页中为Web Robot设计路标

web|设计 Internet越来越酷,WWW的知名度如日中天.在Internet上发布公司信息.进行电子商 务已经从时髦演化成时尚.作为一个Web Master,你可能对HTML.Javascript.Java. ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?  Internet上的流浪汉--- Web Robot  有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系.其实这正是W

搜索器robot技术

凡上网者都用过搜索引擎,Altavista.Infoseek .Hotbot.网络指南针.北大天网和华好网景的ChinaOK等等,它们的索引数据库涉及Internet上超过1亿的页面(Altavista和Hotbot),北大天网也收集了32万个www页面(国内),索引数据库的建立需要访问这些页面然后进行索引,如何做到对如此多的页面的访问,现在的搜索引擎无论是针对英文还是中文,都是采用网上机器人来实现网上搜索的(Yahoo!是个例外). 网上机器人 网上机器人(Robot)又被称作Spider.W

为网站的Web Robot 设计路标

web|设计 Internet越来越酷,WWW的知名度如日中天.在Internet上发布公司信息.进行电子商 务已经从时髦演化成时尚.作为一个Web Master,你可能对HTML.Javascript.Java. ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?  Internet上的流浪汉--- Web Robot 有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他们有过任何联系.其实这正是Web

在网页设计中对称手法使用技巧

文章描述:在网页设计中,对称/不对称的有效运用可以达到非常与众不同的效果. 在设计中,对称创造了平衡,平衡了创造和谐.秩序和审美.自然界中对称无处不在,也许正是这种无处不在的状态让我们发现对称的美.形态学的基本原则之一就是对称,它是一套人类形为理论,形态学认为人类对看到和遇到的事物本能的产生出秩序和完整性. However, symmetry can get boring. Asymmetry is a break in symmetry, which when used effectively

网页设计心得:网页设计中的包容原则

让我们来探索 包含原则 奥妙.它允许我们忘记在我们的社交行为中根深蒂固的那种"他们"和"我们"之间的对立.聚焦包含原则将无障碍/通用设计的争论从上述利益冲突中解放出来,让我们拥抱一种更宽阔.更接近自然的设计哲学.最重要的一点,聚焦包含原则也帮助我们了解到,我们不仅是为了别人才重视可访问性,也是为我们自己好. 设计师的工作一直与"可视性(affordance)"有着密切的利害关系.这个词自唐纳德·诺曼(Donald Norman)的名著<设计

如何拦截或屏蔽网页广告

如何拦截或屏蔽网页广告: 现在的网站,对广告的放置越来越离谱,进入之后,首先给你弹出两三个窗口,然后是占据了整个浏览器窗口页面显示区域的巨幅Flash广告,待上一会才 "恋恋不舍"地消失.再看页面,让人眼花缭乱的通栏的横幅广告条.你动它也动的悬停广告.四处晃来荡去的飘浮广告等等,真是无所不用其极.加上时不时弹出的ActiveX控件与插件安装下载.运行提示对话框.Java小程序要求安装Java虚拟机提示框,真是让人顿生不少烦恼,还增加了系统的负担. 一般来说,通过浏览器的设置以及第三方软