真实经历分享:通过.htaccess文件屏蔽不良蜘蛛

  一周前,笔者分享过一篇文章《SEO诊断:透过Log日志找到网站死结》,并在最后附上了两条改善建议。由于客观条件所限,最后采用robots屏蔽的方法。先一起来看看一周后的蜘蛛变化,三大主流蜘蛛总抓取量锐减,证明robots文件开始生效。从图上的访问次数、总停留时间和总抓取量看,有所进步但路还很远。

  


 

  然而,从11号开始,网站LOG日志开始出现众多中文非主流蜘蛛访问,其中不乏知名俄罗斯搜索引擎蜘蛛Yandexbot,还有不明“飞行物”AhrefsBot & ezooms.bot。 按照思维中定型的屏蔽蜘蛛方法,本能地将以上所有蜘蛛(对中文网站seo而言,以上的蜘蛛就是垃圾蜘蛛)通过Robots.txt文件disallow掉。本以为这样就算搞定了,但是今早打开最近3天的LOG日志一看,垃圾蜘蛛抓取更加频繁,凶猛,尤其以ezooms.bot为甚。

  一般来说,搜索引擎对待Robots.txt文件有个生效期,大概2-7天。但是ezooms.bot的迅猛发展,让我不得不怀疑他是个Robots协议违反者。

  今天要分享的就是如何通过.htaccess文件屏蔽不良蜘蛛。

  以下是14号的网站日志,导入到Excel进行筛选分析,发现在当天所有访问日志(包括真实用户和蜘蛛)中,竟然有多达342次访问记录。而尤以AhrefsBot & ezooms.bot居多。

  (注:此例输入“Bot”进行筛选;国外蜘蛛一般叫Bot,国内一般叫Spider)

  


 

  Ezooms.bot究竟是何方神圣?于是通过百度去搜索相关的记录,但是很不理想,百度没有任何相关的记录。没办法,只能求助于谷歌,满篇幅都是英文,头大了,咬咬牙慢慢咀嚼吧。

  翻阅了七八篇国外有关ezooms.bot的博客文章,对该bot也没有一个明确的说法,有的认为是SEOMoz Bot,有的认为是个文章采集者,但是大家对它的评价都很不好,被描绘成诸如吸血鬼、水蛭等。截取一段外文评语:

  


 

  从了解到的知识来看,ezooms.bot对爬行的网站没有任何的帮助,遂下定决心屏蔽之。由于ezooms.bot不遵守Robots.txt协议,又想起了通过htaccess文件屏蔽IP段的方法。国外的博文也多次提到此方法,

  


 

  图上的IP段与网站记录的ezooms.bot爬行ip段基本吻合,应该是个方法。但是屏蔽整个ip段,可能会造成一定的误杀(毕竟并不能确认所有的ip都是ezooms.bot)。有没有更稳妥的办法呢?还是翻阅资料,最后找到了通过.htaccess来解决的办法。规则如下:

  RewriteEngine on

  RewriteCond %{HTTP_USER_AGENT} ^Ezooms

  RewriteCond %{HTTP_USER_AGENT} ^Ezooms/1.0

  RewriteRule ^(.*)$ http://getlostbadbot/

  为什么这么写,网上翻翻更多关于Apache中 RewriteCond 规则参数介绍,我也是菜鸟正在学习中。

  以上是笔者个人关于如何屏蔽不良蜘蛛的真实经历,希望对大家有所帮助。SEO就是在不断的学习中进步的。本文由减肥产品排行榜www.shou68.net原创供稿,欢迎大家转载,转载时请保留此链接,谢谢合作!

时间: 2025-01-21 23:06:30

真实经历分享:通过.htaccess文件屏蔽不良蜘蛛的相关文章

分享配置htaccess文件比较重要的一些功能

嗨, 百度, 这篇你就别收了, 噢,百度听不懂,转正题: .htaccess 常用的一些配置 自定义php错误日志目录 把php运行中的错误日志保存到指定的目录, 这个很有用,经常查看错误日志可以帮我们检查程序问题, htaccess设置如下:  代码如下 复制代码 1.# 正式上传的程序关闭向客户端浏览器显示错误提示   2.# php_flag display_startup_errors off   3.# php_flag display_errors off   4.# php_fla

一个微商群的真实经历 微商的另外一面

给各位想做微商的朋友们来详细的分享一下一个微商群的真实经历.   一直想研究下微商到底是什么,恰好朋友圈中有个人发消息说他有一个微商培训,扫二维码即可入群,出于好奇,我入了. 我应该是那个群的第一百多号人,期间大家刷表情,发红包一直很活跃,到了晚上,群主邀请了一位资深的培训师聊微商,培训师一上来就发了5元红包,分为20个,大家疯抢,抢到的感激涕零,抢不到的呼天抢地. 晚上八点,培训正式开始,大致内容是教大家怎么在朋友圈里发推销信息不招人恨,多以语音培训为主,偶尔敲点字.培训每隔一二十分钟,会有人

分享如何通过robot灵活控制蜘蛛抓取

做SEO没有人不知道蜘蛛吧,robot.txt文件就是和蜘蛛交流的文件,很多人都会说介绍要怎么让蜘蛛来爬行,却很少人知道用robot.txt去操控蜘蛛,robot.txt用得好的话蜘蛛可以为你所用.下面我来介绍一下如何操控蜘蛛. 一. 屏蔽相同页面 搜索引擎是个喜新厌旧的东西,不会去收录重复的也或者已有的页面,即使收录了后期也会被删掉,所以一开始我们可以打开robots文件,写入禁止蜘蛛来读取这个页面的代码,给蜘蛛来下个好印象,反之印象分会大大减分,影响将来蜘蛛来爬行网站. 二.维护网站安全 利

nginx支持.htaccess文件实现伪静态的方法分享_nginx

在Google上搜索的资料很多人都说nginx目前不支持.htaccess文件,我按照nginx的规则试验了一下,结果发现nginx是完全支持.htaccess文件的! 方法如下: 1. 在需要使用.htaccess文件的目录下新建一个.htaccess文件, 如本人的一个Discuz论坛目录: 复制代码 代码如下: vim /var/www/html/168pc/bbs/.htaccess 2. 在里面输入规则,我这里输入Discuz的伪静态规则: 复制代码 代码如下: # nginx rew

21个常用的apache .htaccess文件配置技巧分享_Linux

Apache Web 服务器可以通过 .htaccess 文件来操作各种信息,这是一个目录级配置文件的默认名称,允许去中央化的 Web 服务器配置管理.可用来重写服务器的全局配置.该文件的目的就是为了允许单独目录的访问控制配置,例如密码和内容访问. 1. 定制目录的 Index 文件 复制代码 代码如下: DirectoryIndex index.html index.php index.htm 你可以使用上面的配置来更改目录的默认页面,例如你将这个脚本放在 foo 目录,则用户请求 /foo/

apache的htaccess文件语法详解

Apache系统中的.htaccess文件(也称"分布式配置文件")提供了针对目录改变配置的方法,也就是在一个特定的文档目录中放置一个包含指令的文件, 以作用于此目录及其所有子目录.直白的说,.htaccess文件只是一个简单的文档,可以在里面加些简单的命令实现各种不同的设置. 如何知道主机是否支持.htaccess? 其实大部分主机都支持.htaccess,但实际上你的主机提供商并不会特别声明.一般来说,如果你的主机使用Unix或Linux系统,或任何版本的Apache网络服务器,理

apache .htaccess文件详解和配置技巧总结_Linux

一..htaccess的基本作用        .htaccess是一个纯文本文件,它里面存放着Apache服务器配置相关的指令.       .htaccess主要的作用有:URL重写.自定义错误页面.MIME类型配置以及访问权限控制等.主要体现在伪静态的应用.图片防盗链.自定义404错误页面.阻止/允许特定IP/IP段.目录浏览与主页.禁止访问指定文件类型.文件密码保护等.       .htaccess的用途范围主要针对当前目录. 二.启用.htaccess的配置启用.htaccess,需

牟长青:SEO不等于网络推广 非SEO推广经历分享

关于seo不等于网络推广的观点,我在自己一些博文里也偶尔提过,但从来没单独讨论过这话题.今天会写这篇文章,是我在28推看到一篇帖子后的感触.起因是有个会员在28推发帖问"在网络推广中,seo是唯一推广手段,你认同吗?",我看了下帖子里的回复.没想到很多会员都认同seo是网络推广的唯一推广手段.让我很是惊讶,所以让我有了写这篇文章的冲动. 互联网用户的3大入口 首先我们来了解下,现在互联网用户的3大入口.以前国内互联网用户主要是2大入口,分别是搜索引擎和网址导航.而到今天,随着web2.

详解Apache下.htaccess文件常用配置

.htaccess文件是Apache服务器中最常用的一个配置文件,它负责相关目录下的网页配置.通过htaccess文件,可以帮我们实现:网页301重定向.自定义404错误页面.改变文件扩展名.允许/阻止特定的用户或者目录的访问.禁止目录列表.配置索引入口等功能. 另外,.htaccess手动编辑方法是使用UE或notepad2等高级文本编辑器.如果不方便下载或手动编写的文件出错,也非常推荐在线htaccess文本编辑器,目前这款编辑器已经非常完善,并且在二次开发下已经增加了很多新功能,简单易用,