通过HTTP状态代码看搜索引擎怎么Crawl你的站

  通过HTTP状态代码通通透透看搜索引擎怎么Crawl你的站。

  下面的表格是所有 HTTP 状态代码及其定义。
 

代码 指示
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

  比如说:
2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/119.htm - 304 Baiduspider+(+http://www.baidu.com/search/spider.htm)
这就意味着百度蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。

  再比如说:2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/120.htm - Googlebot/2.1
(http://www.google.com/bot.html)
这就意味着Google蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。

  作者:佚名 来源:网络

时间: 2024-11-02 19:42:27

通过HTTP状态代码看搜索引擎怎么Crawl你的站的相关文章

HTTP状态代码2XX、3XX、4XX、5XX分析

  返回一个HTTP状态代码是在响应请求时为您网站上显示的服务器状态,举例如下: ·当用户在浏览器中访问网页. ·当搜索引擎蜘蛛的抓取网页. HTTP状态码是五个不同的类别: 1XX临时/信息响应 2XX成功 3XX重定向 4XX客户端/请求错误 5XX服务器错误 五个类别的响应状态代码的第一个数字是唯一代表. HTTP状态代码 谷歌网站管理员提供了一个HTTP状态代码的列表,其中最常见的和项重要的状态代码如下: 200(成功),服务器成功处理了请求.一般来说,这意味着服务器提供所请求的页面,如

蜘蛛状态代码304解决方案-seoer必备

在做seo的过程中每个seoer都难免要做搜索引擎蜘蛛的爬行日志分析,很多的朋友只是看蜘蛛来访次数却忽略了蜘蛛的状态代码.那有的朋友就困惑了,蜘蛛状态代码有什么用?出现304能说明什么问题吗? 搜索引擎"喜新厌旧"无法避免 假设在你的网站上是关于<如何做好seo优化>的文章,是帮助用户做好网站的SEO优化的各种文章.如果读者在第一次阅读并全部掌握这些知识后又来一两次发现没有文章的更新,那么读者一定会把来你网站的频率降低. 从上例中我们可以看到读者需要新的知识(这是用户的需求

Internet信息服务器(IIS)状态代码说明

SEOer都避免不了要看网站日志,当网站日志出现不正常时,返回了状态代码时一些"304 0 64,200 0 64"等等都让SEOer不解,不知道是什么原因,是不是被搜索引擎干预或者是降权.其实风采依扬可以告诉大家这些IIS日志的状态代码在微软官方网站帮助中心可以查到的,以下是关于IIS日志状态代码详细内容. 日志文件的位置 在默认情况下,IIS 将日志文件放在以下位置中: %WINDIR%\System32\Logfiles 每个万维网 (WWW) 站点和 FTP 站点在该目录下都有

PHP中如何Header出状态代码 (转)

在照彭武兴先生的<PHP BIBLE>中所述,header可以送出Status标头,如 <?php header("Status: 404 Not Found"); ?> 就可以让用户浏览器出现文件找不到的404错误,但是我试了这样是不行的. 后来我到w3.org上查了http的相关资料,终于试出来了如何Header出状态代码(Status),与大家分享. 其实应该是这样的: Header("http/1.1 403 Forbidden");

Http 状态代码 指示(ajax,bs结构用的到)_其它综合

Http状态代码 指示: 2xx 成功 200 正常:请求已完成. 201 正常:紧接 POST 命令. 202 正常:已接受用于处理,但处理尚未完成. 203 正常:部分信息 - 返回的信息只是一部分. 204 正常:无响应 -已接收请求,但不存在要回送的信息. 3xx 重定向 301 已移动 -请求的数据具有新的位置且更改是永久的. 302 已找到 - 请求的数据临时具有不同 URI. 303 请参阅其它 - 可在另一 URI 下找到对请求的响应,且应使用 GET方法检索此响应. 304 未

IIS W3C日志记录字段和HTTP状态代码的说明

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 一般情况下很多朋友都不在意IIS日志, 有的是因为购买的 虚拟主机不给提供,有的是提供了, 但是还必须与服务器管理员联系才能得到.像新网的部分服务器ftp目录有这个文件,但是就是提示没权限查看也没有权限下载,还得必须给他们打电话才能要到. 做为网站拥有者,我们应该关注IIS日志,从里面我们不仅仅可以看到网站的访问记录和搜索引擎的抓取记录,还可

IIS W3C日志记录字段和HTTP状态代码的说明_win服务器

像新网的部分服务器ftp目录有这个文件,但是就是提示没权限查看也没有权限下载,还得必须给他们打电话才能要到. 做为网站拥有者,我们应该关注IIS日志,从里面我们不仅仅可以看到网站的访问记录和搜索引擎的抓取记录,还可以看到哪些网站盗链本站的哪些资源.部分死链接以及其他出错信息.其实对于我们来说,蜘蛛抓取记录和相关出错信息是我们最想关注的.哪些蜘蛛什么时间抓取了什么页面,返回的什么结果,是否正常,都可以从日志里清楚的看到. 下面说说IIS W3C格式日志中记录的字段及说明(一般都是选择的W3C格式日

ASP.NET中设置404页面并输出404状态代码

1.配置web.config  代码如下 复制代码 <customErrors redirectMode="ResponseRewrite" defaultRedirect="/404.aspx">     <error statusCode="404" redirect="/404.aspx"/> </customErrors> 2.设置404.aspx 在之前我们已经创建了404页面40

IIS日志文件分析及状态代码解释

当用户试图通过 HTTP 或文件传输协议 (FTP) 访问一台正在运行 Internet 信息服务 (IIS) 的服务器上的内容时,IIS 返回一个表示该请求的状态的数字代码.该状态代码记录在 IIS 日志中,同时也可能在 Web 浏览器或 FTP 客户端显示.状态代码可以指明具体请求是否已成功,还可以揭示请求失败的确切原因. iis默认的日志文件在C:\WINDOWS\system32\Loghttp://www.aliyun.com/zixun/aggregation/19352.html"