百度蜘蛛是笨蛋 看我怎么活捉蜘蛛

  最新发现,百度蜘蛛(Baiduspider)是笨蛋!最近发现网站百度收录的很慢,基本上是过几天重新快照下首页,其它页面基本上不收录!郁闷!实在郁闷!打开网站IIS log,查了下百度蜘蛛,大惊!有重大发现:百度蜘蛛真是个笨蛋!

  一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我网站上的活动记录。

  1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 404 0 64 (注:404表明未找到robots.txt)

  2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64 (注:200表明找到首页文件index.asp)

  由此可以看出,百度蜘蛛的活动,先到网站找robots.txt 这个文件,如果没有则找到网站首页index.asp,和百度目前收录的首页对比后发现和原来没变化,然后走了。和广大站长一样,谁不想自己被百度收录的页面时不时的快照更新下?看来只有先完善robots.txt ,牵着百度蜘蛛到我站上到处跑了。

  二、书写robots.txt ,带百度到你站上四处逛逛。

  robots.txt 这个文件必须写。具体怎么写大家都懂吧?不会的话我再重复下

  例1. 禁止所有搜索引擎访问网站的任何部分

  User-agent: *

  Disallow: /

  例2. 允许所有的robot访问

  (或者也可以建一个空文件 "/robots.txt")

  User-agent: *

  Disallow:

  或者

  User-agent: *

  Allow: /

  (桌子注:这个必须的,不要建空文件,那是百度在放烟。最好写下面一句。)

  例3. 仅禁止Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow: /

  例4. 仅允许Baiduspider访问您的网站

  User-agent: Baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  例5. 禁止spider访问特定目录

  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  例6. 允许访问特定目录中的部分url

  User-agent: *

  Allow: /cgi-bin/see

  Allow: /tmp/hi

  Allow: /~joe/look

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /~joe/

  例7. 使用"*"限制访问url

  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  User-agent: *

  Disallow: /cgi-bin/*.htm

  例8. 使用"$"限制访问url

  仅允许访问以".htm"为后缀的URL。

  User-agent: *

  Allow: .htm$

  Disallow: /

  例9. 禁止访问网站中所有的动态页面

  User-agent: *

  Disallow: /*?*

  例10. 禁止Baiduspider抓取网站上所有图片

  仅允许抓取网页,禁止抓取任何图片。

  User-agent: Baiduspider

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .gif$

  Disallow: .png$

  Disallow: .bmp$

  例11. 仅允许Baiduspider抓取网页和.gif格式图片

  允许抓取网页和gif格式图片,不允许抓取其他格式图片

  User-agent: Baiduspider

  Allow: .gif$

  Disallow: .jpg$

  Disallow: .jpeg$

  Disallow: .png$

  Disallow: .bmp$

  例12. 仅禁止Baiduspider抓取.jpg格式图片

  User-agent: Baiduspider

  Disallow: .jpg$

  看看桌子自己写的robots.txt,大家参考

  复制代码

  User-agent: *

  Disallow: /admin/

  Disallow: /Soft/

  Allow: /images/

  Allow: /html/

  Allow: .htm$

  Allow: .php$

  Allow: .asp$

  Allow: .gif$

  Allow: .jpg$

  Allow: .jpeg$

  Allow: .png$

  Allow: .bmp$

  Allow: /

  解释:

  1、允许各种搜索引擎索引

  2、禁止索引/admin目录,这里是网站的后台,当然禁止了

  3、禁止/soft等重要安全目录

  4、允许访问/images目录

  5、允许访问/html目录

  6、允许访问所有htm,php,asp,html文件

  7、允许抓取gif,jpg,jpeg,png,bmp格式的图片

  8、允许抓取网站根目录下的文件。

  好了,把你的 robots.txt传到网站跟目录下等着百度蜘蛛再来吧。到时候有这个好向导会带着那个笨蛋到你站上到处走走的。本文作者桌子,由MOFHOT外贸服装批发网www.mofhot.com 搜集发布,请A5留个连接谢谢~发个文章也不容易的。

时间: 2024-10-27 21:45:46

百度蜘蛛是笨蛋 看我怎么活捉蜘蛛的相关文章

通过百度网页质量白皮书看企业站优化新动向

随着百度算法的不断升级,这不,近期百度网页搜索质量白皮书再次向站长发布鲜明的立场,从多个方面阐述网页质量对于网站权重的影响,作为一个企业站是众多网站中的一个重要分支,我们应该如何做好企业网站的运维和优化,百度网页质量白皮书对于企业网站都有哪些具体的要求呢?好,我们闲话短续,今天正题,通过百度网页质量白皮书看企业站优化新动向. 第一,企业网站要通过内容质量浏览体验和可访问性入手. 我们先看百度质量白皮书的要求是什么?搜索引擎的使命是提供给用户能满足其需求.高质量的内容.百度搜索引擎会根据网页质量情

从百度spider工作原理看如何提升优化效果

在圈子里有一句笑话是说站长每天早上起床第一件事是什么?答案是查百度收录.看快照时间.看排名!虽然有些夸张,却也非常形象地说明了站长对网站在百度搜索中优化情况的重视程度.在这些要素之中,网站快照.排名.收录数量共同构成了一个网站的优化效果,反映出网站在搜索引擎之中占据的"分量"也就是我们常说的"权重"如何.权重越高,越容易带来更好的优化效果.提升网站优化效果能够获得更多的搜索流量,也就意味着更多的用户和潜在的收益来源!下面我们就从百度spider(百度蜘蛛)的工作原理

揣摩百度C2C平台的看点

中介交易 SEO诊断 淘宝客 云主机 技术大厅 果然不出所料,记得上次有朋友在博客评论问起百度会使用支付宝吗?我说应该不会,百度是只大牛绝不会在受制于人的环境下生存的.随着百度支付工具的推出,百度C2C上线进入了倒计时,值得关注的百度电子商务平台的看点在那里. 估计习惯了淘宝,业内业外的人都多少有点期待百度能带来点什么新鲜东西.就现在百度C2C辅助工具来看,百度HI-用于交易的即时沟通及百度空间的交友互动,在百度C2C平台推出同时百度hi相信会有一次更新版.用于交易沟通工具或和淘宝旺旺具有的功能

百度看重质 谷歌看重量

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 从事网络推广多年了,不知大家有没有这样的体会,百度的搜索排名更多地看重网站的页面质量,而GOOGLE则更看重 外部链接的数量, 其实搜索引擎的搜索目的都是相同的,就是要把更加优质的网页排到 搜索结果的前面,让用户可以得到更有价值的东西. 究竟谁的搜索结果更受欢迎? 百度与GOOGLE真可谓是旗鼓相当,无论在流量,知名度,实用性,甚至搜索算法上

从百度搜索seo结果看百度的外链算法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 奈何以前也在文章中提及过内容为皇时代的外链建设相关的问题,出于对百度优质原创内容的需求还有对百度质量算法的信任,奈何做出了主要通过博客养成建设自己的外链外链网络,然后辅之以其他的论坛外链和引蜘蛛的外链这样的计划,当然,博客的养成基本全部原创,或许看起来有点傻,但是这是一枚屌丝seoer的坚持,天道酬勤. 在百度搜索seo的时候,不知道大家发现

从百度知道的整合看百度一站式营销

百度今天的活动频繁,从百度自己产品的整合,到凤巢.阿拉丁计划及近期百度算法变化,让广大站长无所适从. 百度发展到今天,靠百度生存的广大站长们,应该也越来越感觉到百度越来越不像个搜索引擎,完全背离了搜索引擎的初衷,朝着一个网站的方向发展了,今天就以英文SEO博客(www.lenry.cn)的亲身体验,从百度知道这个小入口,来给大家详细分析一下百度的一站式营销体验. 8月1日早上也就是今天,英文SEO无意识的搜索了一下自己博客上一篇名为"怎么判断一个网站的SEO优化好坏"的文章,看下此文在

从百度内部服务器出错看SEO行业病态现象

昨天是5月20日,在这个特殊含义的日子里,百度似乎要跟我们这些SEOer开个玩笑,从早上起来,笔者手里的几十个企业站关键词排名全部掉落,几年的老站也未能幸免,也害怕是我一个人的网站被降权,所以就打开seowhy论坛,发现90%的企业站都是如此.大部分反应的情况是关键词排名首页的多数是行业信息站的内页,主域名的企业站跌落10页之后,当天seowhy论坛的发帖量过万,大多是围绕这次5.20事件进行探讨,同时在各大站长论坛,如A5,也有很多人写关于百度这次大更新的文章.不过后来,百度在站长俱乐部里发布

从《百度SEO指南》看SEO行业发展趋势

MADCon大会已经结束接近1个月了,在此次会议上有大量的SEO资深从业者参与并分享了SEO心得,所不同的是,本次大会有国内最大的中文搜索引擎百度内部员工参与,并代表百度分享了百度SEO指南.<百度SEO指南>由百度网页搜索产品市场部王淘分享,墨明棋妙在仔细拜读后,也稍有所悟,遂于大家一起分享. 在本SEO指南中,百度官方分享了5个SEO作弊案例,这其中包含4个内容作弊案例与1个链接作弊案例,单从案例举例来看,我们可以发现搜索引擎对SEO作弊的判别重心在逐渐的从链接作弊转向内容作弊.我们知道,

从百度的产品运营看搜索引擎的商业经

中介交易 SEO诊断 淘宝客 云主机 技术大厅 让我们先来花点时间描述一下百度公司: 2008年百度公司实现营业收入31.983亿元,营业利润10.967亿元.对比2007年,百度公司营收和营业利润分别实现了83.3%和100.4%的增长,而2009年第二季度其营业利润仍同比增长了53%──显然,这是一家非常赚钱并且还在越来越赚钱的"好公司". 与此同时,从行业角度来看,2009年Q1中国网页搜索请求量442.7亿次,其中百度的网页搜索请求量占比由2008年Q4的72.0%上升到200