谈谈搜索引擎的蜘蛛原理

  网站能在搜索引擎被搜到,归功于搜索引擎蜘蛛抓取的功劳,权重高,更新快的网站,搜索引擎蜘蛛会经常爬行,抓取网站最新数据,经过搜索引擎数据整理后,在搜索引擎上就能搜索到网站的网页,为了更好的SEO优化网站,了解搜索引擎蜘蛛爬行规则也是相当重要的,怎么才能知道搜索引擎蜘蛛在爬行网站时间、爬行网页、爬行反映呢,就要查看网站iis日志文件, iis默认的日志文件在C:\WINDOWS\system32\Log">Files中,从查看日志中,就可以了解搜索引擎蜘蛛爬行经过,如:

  2008-08-19 00:09:12 W3SVC962713505 203.171.226.111 GET /index.html - 80 - 61.135.168.39 Baiduspider+

  (+http://www.baidu.com/search/spider.htm) 200 0 64

  1、203.171.226.111就是搜索引擎蜘蛛防问的网站ip,

  2、61.135.168.39 Baiduspider代表,百度搜索引擎蜘蛛的ip是61.135.168.39,

  3、代码中的/index.html 就代表搜索引擎蜘蛛防问的网页

  4、2008-08-19 00:09:12代表搜索引擎蜘蛛爬行的日期与时间

  5、http://www.baidu.com/search/spider.htm代表的是关于baiduspider的一些说明

  6、W3SVC962713505代表网站日志所在的文件夹

  7、代码中的200就代表搜索引擎蜘蛛爬行后返回代码代表,代码中可以了解蜘蛛爬行后的反映,代码如下:

  2xx 成功

  200 正常;请求已完成。

  201 正常;紧接 POST 命令。

  202 正常;已接受用于处理,但处理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;无响应 — 已接收请求,但不存在要回送的信息。

  3xx 重定向

  301 已移动— 请求的数据具有新的位置且更改是永久的。

  302 已找到 — 请求的数据临时具有不同 URI。

  303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

  304 未修改 — 未按预期修改文档。

  305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

  306 未使用 — 不再使用;保留此代码以便将来使用。

  4xx 客户机中出现的错误

  400 错误请求 — 请求中有语法问题,或不能满足请求。

  401 未授权 — 未授权客户机访问数据。

  402 需要付款 — 表示计费系统已有效。

  403 禁止 — 即使有授权也不需要访问。

  404 找不到 — 服务器找不到给定的资源;文档不存在。

  407 代理认证请求 — 客户机首先必须使用代理认证自身。

  410 请求的网页不存在(永久);

  415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

  5xx 服务器中出现的错误

  500 内部错误 — 因为意外情况,服务器不能完成请求。

  501 未执行 — 服务器不支持请求的工具。

  502 错误网关 — 服务器接收到来自上游服务器的无效响应。

  503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

  作者: Seoer惜缘 原载网址: http://www.noseo.org.cn/

时间: 2024-09-07 07:00:33

谈谈搜索引擎的蜘蛛原理的相关文章

浅谈搜索引擎的工作原理及未来算法调整方向

在A5站长网上摸爬滚打了多年了,期间也写了好几篇的文章,其中有一篇<浅谈地方汽车门户网站运营的四个问题>还被推荐到了首页,我发给我们的朋友看的时候,大家对我这个曾经的菜鸟也开始刮目相看了,这让我本人在这段时间身心都愉悦的很,现在又忍不住在A5上发表一下我对搜索引擎工作原理及算法上的认识,可能比较的浅陋,但是有了想法,不吐还是不快的! 做网站SEO是一个非常枯燥的过程,很多人估计除了吃饭睡觉剩下来的时间就奉献给了电脑了,这样怎么能够把身体搞好呢?这不现在每天爬六楼都累得不行,这对于一个大小伙子实

武汉SEO:浅析搜索引擎的蜘蛛的工作方式

武汉seo今天想聊聊搜索引擎的蜘蛛的工作方式.先说说搜索引擎的原理吧.搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到.哪些网页才能被保存到搜索引擎的服务器上呢?只有搜索引擎的网页抓取程序抓到的网页才会保存到搜索引擎的服务器上,这个网页抓取程序就是搜索引擎的蜘蛛.整个过程分为爬行和抓取. 一. 蜘蛛 搜索引擎用来爬行和访问网站页面的程序被称为蜘蛛,也可称之为机器人.蜘蛛访问

根据搜索引擎网页去重原理来做seo

根据搜索引擎网页去重原理来做seo 01.网页为何要去重? 对于搜索引擎来说,希望呈现给用户的是新颖且吸引人的内容,是高质量的文章,而不是大量的"换汤不换药"的套话;我们在做SEO优化,要进行内容编辑时,难免会参考其他同类的文章,而这篇文章或许被多人采集过,这就导致了网络上的相关信息大量的重复. 如果一个网站存在大量的恶劣采集内容,不仅会影响用户体验,还会造成搜索引擎直接屏蔽该网站.之后网站上的内容,蜘蛛再难抓取了. 搜索引擎优化培训 02.搜索引擎工作原理 搜索引擎是指根据一定的策略

【科普】搜索引擎的工作原理

昨天的文章 全球化的误区,本地化的机会 ,评论里,有人说,搜索引擎技术似乎不需要本地化,这一看就是彻底不懂这个领域的人讲的.当然,实话说,如果有人说,google在中文本地化方面做得非常好,我是可以部分同意的,同意的比例可能会比google工程师少一些.但我相信google工程师也会告诉你,搜索引擎是需要本地化的. 今天写篇科普文,讲讲搜索引擎的技术机理和市场竞争的一些特点.当然,作为从事或有兴趣从事流量运营的朋友,是可以用另一个角度去理解本文. 搜索引擎的核心技术架构,大体包括以下三块,第一,

Seo必须理解的搜索引擎收录网站原理

看了许多seo参考书总觉得这些书对搜索引擎收录原理说的太笼统,不能够很好的理解,今天我花一天时间来说清楚搜索引擎收录的原理,如有问题,望各位seo高手予以斧正,小弟不胜感激. 搜索引擎爬虫,蜘蛛,机器人是什么?-搜索引擎收录原理 搜索引擎为了能够让自己的数据库足够的强大,足够的全面,不分昼夜的在网络上寻找新的,更可靠的信息,但是随着网络时代到来,网络信息爆炸式的整张,人工根本不可能完成这样的任务,因此,搜索引擎拥有者开发出来一套程序,用来不分昼夜的抓去信息,然后整理,分类信息,最后将这些信息索引

PHP禁止掉某地区的IP访问网站,不过滤搜索引擎的蜘蛛

这个里面的代码直接拷贝了OSC一位朋友的,稍等下来贴地址.这会儿太慢,找不到了..   function get_ip_data(){ $ip=file_get_contents("http://ip.taobao.com/service/getIpInfo.php?ip=".get_client_ip()); $ip = json_decode($ip); if($ip->code){ return false; } $data = (array) $ip->data;

让搜索引擎的蜘蛛更好的抓取我们的网站

搜索引擎的蜘蛛是靠爬行来抓取互联网上的信息,也就是说要想被百度或是谷歌等搜索引擎收录,一般情况下是要有链接存在,让搜索引擎的蜘蛛程序顺着链接爬到网站里,蜘蛛来过了,才能有效的抓取.给了让搜索引擎更好的抓取网站内容,我们通常要做的事情是: 第一,先准备好要被抓取的网页("食物") 站长通常都会说"喂饱蜘蛛",指的就是更新网站的内容,让小蜘蛛来了之后有"东西吃",可以抓取到网页信息,而不是让它空手而归.搜索引擎的蜘蛛喜欢原创内容,所以我们为了提高网站

谈谈数据库连接池的原理

谈谈数据库连接池的原理                                                                                                                                                                          帅宏军      这次我们采取技术演进的方式来谈谈数据库连接池的技术出现过程及其原理,以及当下最流行的开源数据库连接池jar包. 一.早期

来谈谈搜索引擎优化策略_网站运营

为什么有的网站能在搜索引擎上排名很好,而有的却连找到找不到呢?这个秘密何在呢?正如免费搜索引擎上的指导方针所说,有五个因素你是必须铭记于心的: 1. 你网站的内容与主题. 2. 每页的关键字数. 3. 关键字放置的位置. 4. 点击量. 5. 链接数量.  1. 搜索引擎优化策略:网站内容 网站的实际内容是你网络优化策略的一个重要的因素.如果你想你的网站能在搜索结果中排得靠前,在你的网站中必须有实际的内容.搜索引擎的蜘蛛基本上是一个瞎子.他们只能对你网页内容进行判断你网站的质量,而不能从图片.f