浅谈:各大搜索引擎蜘蛛的那些事

  做SEO每天打交道最多的就是搜索引擎放出来的小机器人,也叫搜索引擎蜘蛛,我们要做的事情就是把它们伺候好,顺其意投其好。

  一、列举一下各大搜索引擎蜘蛛的名字

  google蜘蛛: googlebot,百度蜘蛛:baiduspider,搜狗蜘蛛:sogou spider,搜搜蜘蛛:Sosospider,yahoo蜘蛛:slurp,alexa蜘蛛:ia_archiver,msn蜘蛛:msnbot,altavista蜘蛛:scooter,lycos蜘蛛: lycos_spider_(t-rex),alltheweb蜘蛛: fast-webcrawler,inktomi蜘蛛: slurp,有道蜘蛛:YodaoBot和OutfoxBot,热土蜘蛛:Adminrtspider 。当然这里只是象征性的列一下,就算我们分析日志的时候看到了也不要太奇怪,又或者你想禁止它们爬你的站点也是可以的。

  二、一句话总结蜘蛛的习惯

  google蜘蛛:不太爱爬,但爱收录。

  百度蜘蛛:爬谨慎,收录更谨慎。

  搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。

  雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。

  其他的没有太多留意,就不多说了。

  三、对于robots.txt的支持程度

  全部分析可能也不现实,这里拿Disallow: /*?*分析(禁止动态页面抓取)。

  google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了,如下图:

  

  百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。

  搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西,如下图:

  

  搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。

  文章铭睿(http://www.iyoov.com)原创分享,说的不是很全面,只分析了动态的禁止,有些文件夹的禁止总体感觉跟上述的差不多,还有后缀的禁止没有试过,望后来者给予补充。

时间: 2024-12-23 15:04:45

浅谈:各大搜索引擎蜘蛛的那些事的相关文章

最新各大搜索引擎蜘蛛名称整理分享

各大seo 搜索引擎的蜘蛛会不断地访问抓取我们站点的内容,也会消耗一定的站点流量,有时候就需要屏蔽某些蜘蛛访问我们的站点.其实常用的搜索引擎就那么几个,只要在robots文件里把常用的几个搜索引擎蜘蛛放行就好,其它的统统通过通配符(*)禁止掉.阿修百度了一下搜索引擎蜘蛛名称,但得到的结果让阿修很是抑郁,几乎都是原文复制粘贴的文章,而且很多的资料都是过时的了,哪怕是最近发表的文章也是抄袭的旧资料根本就没修正和更新,并且关于蜘蛛名称.大小写众说不一,根本就找不到一个准确的资料.所以阿修决定根据自己空

浅谈开源大数据平台的演变

浅谈开源大数据平台的演变 2015-04-16 腾讯大数据一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现.虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用.降低使用门槛.带动业界大规模部署的就是Hadoop.得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一.Hadoop能够满足大部分的离线存储和离线计算需求,且性能表现不俗:小部分离线存储和计算

浅谈如何解决百度蜘蛛不访问网站

百度今天凌晨更新了,祁多多博客关键词排名和收录没有什么变化,电商圈还持续一段时间在百度2,3页各占一个位置,外链倒是一下子放出了1000 多.唯一郁闷的还是百度的快照没有更新,site一下首页也没有降权,真是太无奈了,索性去查了下网站日志,看看是百度蜘蛛不来访呢还是来访了不抓取呢,一看吓了一跳,这几天百度蜘蛛压根就没有来访过.祁多多就结合自己这几天操作浅谈一下蜘蛛不来访问的原因. 1.网站空间不稳定的影响 网站空间不稳定的影响应该是首当其中的原因,持续3天,每天都定时关,并且在蜘蛛最活跃的时间让

浅谈当今大热的机器学习与互联网

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 机器学习和互联网相结合,对于那些大公司来说不再是什么新鲜事,百度成立三大实验室,大数据实验室.深度学习研究院等也表明了百度在这一领域的决心和雄心.随着互联网企业用户的积累,软硬件的更新,想创造更大的利润,机器学习必然能起到关键的作用,它与互联网的结合必然也会推动整个互联网产业的一次巨大的发展,也是互联网发展的必然趋势. 今天,就从站长所关心的

浅谈SEO如何留住蜘蛛的技巧与方法

快照与收录对一个网站排名的重要性,我想大家都很清楚了,那么如何能留住蜘蛛让百度每天都收录,快照天天更新那,下面是笔者结合自己的建站经历给出的一点看法. 1.蜘蛛什么时候来? 蜘蛛什么时候光临网站,是早晨,晚上?其实是不固定的,我的网站基本上每天两更,早晚各一次,更新数量10篇左右,收录情况,基本上更新完毕五分钟内就会收录,基本全部收录.所以可以推断出,蜘蛛光临网站是不定时的.你要是做的就更新好网站. 2坚持更新: 首先不谈原创,伪原创,采集.坚持更新才是王道,我曾经留意了几个电影网站,所有内容基

浅谈SEO如何留住蜘蛛

摘要: 快照与收录对一个网站排名的重要性,我想大家都很清楚了,那么如何能留住蜘蛛让百度每天都收录,快照天天更新那,下面是笔者结合自己的建站经历给出的一点看法. 1.蜘蛛什么时 快照与收录对一个网站排名的重要性,我想大家都很清楚了,那么如何能留住蜘蛛让百度每天都收录,快照天天更新那,下面是笔者结合自己的建站经历给出的一点看法. 1.蜘蛛什么时候来? 蜘蛛什么时候光临网站,是早晨,晚上?其实是不固定的,我的网站基本上每天两更,早晚各一次,更新数量10篇左右,收录情况,基本上更新完毕五分钟内就会收录,

浅谈如何让搜索引擎快速的收录和网站推广

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站收录和推广一直被一些新手认为是很难的事,经常有人说,我的网站怎么还没有被收录啊,有的新人站长刚开始建站豪言壮语.壮志满怀,坚持不了几天就不了了之了,因为觉得自己的网站收录太少,或者人气弱,没有人上自己的网站,这似乎是困扰广大新人站长的一个大问题.有的畏手畏脚,觉得是个很高深的问题,其实大道至简至易. 我也是一个从新人站长走过来的,刚开始做

硅谷杂志:浅谈个性化元搜索引擎技术

[硅谷网11月4日文]据<硅谷>杂志2012年第16期刊文称,搜素引擎技术这几年的发展速度非常快,同时应用的也非常广泛,可以说搜索引擎改变人们上网的体验,能够更准确的帮助广大用户能够定位自己需要的内容和知识,而且搜索引擎为提供更准确的搜索结果,也已经开始逐步融入智能化搜索引擎技术,而这一切都是建立在元搜索引擎技术基础上的, 重点就是探讨个性化元搜索的几个关键性的技术. 1元搜索引擎的概念分析 元搜索引擎实际上是通过统一的用户界面来 帮助用户在多个搜索引擎中 寻找 合适的搜索引擎来进行检索的基础

浅谈站长与网络蜘蛛

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网络蜘蛛搜索引擎的爬虫对网站的重要性站长们可向而知了吧应该.那该如何处理好你与网络蜘蛛的关系那,下面就教大家如何养好网络蜘蛛,让它更好的为你服务呢? 既要让网络蜘蛛天天有东西吃,又要保证网络蜘蛛能深入你的站,把站内的页面都挖掘出来,这就很重要.本人在做站时与网络蜘蛛亲密接触,了解它的习性,一点经验,与大家分享: 1.保证站点结构,简洁又合理,