最新详细的百度蜘蛛爬行检测代码诠释

  最近在网上看了篇有关百度蜘蛛的爬行代码的解释,发现和现在的爬行有些改变,已至于开始时看我的小游戏站www.zz.la这个站的日志看不懂

  是什么意思,经过多次研究终于明白其中,所以今重新整理解释如下:

  做seo的朋友都知道,研究se爬行规律对于网站优化意义重大,特别是对百度蜘蛛Baiduspider的研究。本文解释一下百度蜘蛛爬行后返回代码

  代表的具体含义:

  2xx 成功

  200 正常;请求已完成。

  201 正常;紧接 POST 命令。

  202 正常;已接受用于处理,但处理尚未完成。

  203 正常;部分信息 — 返回的信息只是一部分。

  204 正常;无响应 — 已接收请求,但不存在要回送的信息。

  3xx 重定向

  301 已移动— 请求的数据具有新的位置且更改是永久的。

  302 已找到 — 请求的数据临时具有不同 URI。

  303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

  304 未修改 — 未按预期修改文档。

  305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

  306 未使用 — 不再使用;保留此代码以便将来使用。

  4xx 客户机中出现的错误

  400 错误请求 — 请求中有语法问题,或不能满足请求。

  401 未授权 — 未授权客户机访问数据。

  402 需要付款 — 表示计费系统已有效。

  403 禁止 — 即使有授权也不需要访问。

  404 找不到 — 服务器找不到给定的资源;文档不存在。

  407 代理认证请求 — 客户机首先必须使用代理认证自身。

  410 请求的网页不存在(永久);

  415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。

  5xx 服务器中出现的错误

  500 内部错误 — 因为意外情况,服务器不能完成请求。

  501 未执行 — 服务器不支持请求的工具。

  502 错误网关 — 服务器接收到来自上游服务器的无效响应。

  503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

  比如说:

  2008-05-10 00:28:03 W3SVC818374 222.214.218.36 GET /log/ - 80 - 221.10.254.26 Baiduspider+

  (+http://www.baidu.com/search/spider.htm) 200 0 0 21089

  如果你的网址是www.zz.la这就意味着百度蜘蛛在2008-05-10 00:28:03 爬过http://www.zz.la/log/ 这一页,200 0 0 21089中的200协议代码

  代表了请求已完成也就是它发现这页并以入库了。根据这个我们可以多查看iis日志,研究蜘蛛爬行的路径,找出自己网站存在的问题,进而改正。

时间: 2024-09-18 04:41:31

最新详细的百度蜘蛛爬行检测代码诠释的相关文章

PHP写的获取各搜索蜘蛛爬行记录代码_php技巧

那么下面分享一款用php写的获取各搜索蜘蛛爬行记录代码 支持搜索引擎如下 可以记录Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行网站的记录! php代码如下 复制代码 代码如下: <?php function get_naps_bot() { $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return

php记录搜索引擎蜘蛛爬行记录代码

php教程记录搜索引擎蜘蛛爬行记录代码 <center> <form action="setup.php" method="post"> <table align="center"> <tr> <td>服务器:</td><td><input value="localhost" name="server" />&l

略析百度蜘蛛爬行

这几天一直在搞网站和产品推广,不懂的东西很多很多,但推广的那些事中,很多名词都非常的吸引我.首先是SEO,了解SEO的过程中,碰到了"外部链接",学习外部链接的时候又偶遇"蜘蛛爬行",一下子接收了那么多信息,感觉相当神奇,SEO的事也的确不简单. 而今天想跟大家谈谈"蜘蛛爬行"这个词.我相信我不是第一个提到它的,因为我是后来者,但我希望我的描述能让更多的人了解这个词,毕竟,很多专业的介绍都相当专业,正因为太专业,而让人觉得无法理解. 首先,介绍一

百度蜘蛛爬行IIS返回200 0 64终极合理解释

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 做网站之初就在A5论坛发现有人说关于蜘蛛爬行IIS返回200 0 64信息的相关文章,当时对这个根本不懂,所以没有去具体了解,直到08年底我才开对这个64有点想直到的欲望,所以也在网上找了不少这方面的文章来看,自己也一直分析其中的奥妙,截止11年6月22日凌晨4点左右,终于有了自己的结论,下面和大家分享: 首先分析一下网络上的一些说法: 1.

通过IP地址看网站日志寻找百度蜘蛛爬行规律

对于各位站长来说,百度的收录是关心的重中之重.了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的.很多网站目前使用的都是虚拟空间,都能够提供日志. 日志是指在网站根目录下的logfiles文件夹里面日期.txt文本文件有很多介绍通过http查看返回命令的那种办法来查看蜘蛛,这里就不介绍了. 现在更多的网站是没有提供可以通过软件来查看的日志格式. 更多的是类似下面的日志格式,如下: 03:28:34 GET /goods.php 202.108.7.205 200 34696 390 第

通过网站日志来寻找百度蜘蛛爬行规律

中介交易 SEO诊断 淘宝客 云主机 技术大厅 对于各位站长来说,百度的收录是关心的重中之重,因为网站大部分流量都来自百度. 因此,了解百度蜘蛛的爬行规律从而更好的改善收录情况也是必须要掌握的. 很多网站目前使用的都是虚拟空间,都能够提供日志.从虚拟主机后台登录,点击下载访问日志. 日志是指在网站根目录下的logfiles或W3SVC文件夹里面日期.txt文本文件 更多的是类似我的网站建站学习网www.3915.net的日志格式,如下: 开始几行: #Software: Microsoft Lo

百度蜘蛛解决内页收录难的问题

摘要: 网站内页收录也是衡量一个网站优化是不是达到合格水平的重要指标,如果一个网站的内页收录情况不理想,那么即使其主页排名到达了首页,流量也是寥寥无几的.但是收录内页的难 网站内页收录也是衡量一个网站优化是不是达到合格水平的重要指标,如果一个网站的内页收录情况不理想,那么即使其主页排名到达了首页,流量也是寥寥无几的.但是收录内页的难度往往要比收录首页高很多,如果网站的细节做得不够好,网站的内页收录是非常艰难的. 当各位seoer还在苦恼你的网站内页为什么那么难收录的时候,可曾想到过,我们的收录的

从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容

经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题. 大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果A在杂志上发表了一篇原创文章,B看到后不加改变的抄袭并发表到其他杂志,A要起诉B者,法院很容易根据作品发表时间来判断B抄袭了A,因为A发表作品在先(如果B经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不

WordPress博客如何记录搜索引擎蜘蛛爬行痕迹

WordPress博客记录seo/seo.html" target="_blank">搜索引擎蜘蛛爬行痕迹插件: 1.搜索引擎蜘蛛爬行记录器Spider Tracker插件可以记录百度.谷歌.雅虎.必应.搜狗.搜搜6种搜索引擎的蜘蛛爬行痕迹,并生成统计图表,可以清晰的看到,近6日的各种搜索引擎的蜘蛛数量,以及当日的哪些时间,蜘蛛来过站里,又抓取了哪些网址. 2.wp-log-robots 插件大小仅3KB,wp-log-robots是一个记录搜索引擎蜘蛛爬虫活动记录的W