百度lee给出 http返回码的含义和建议

  百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。

  百度spider对常用的http返回码的处理逻辑是这样的:

  1、404

  404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。

  2、503

  503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。

  3、403

  403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度spider暂不会抓取,短期内会再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。

  4、301

  301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长,但我们还是推荐大家这么做。

  我们的建议

  1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,请过段时间再重试。

  2、如果百度spider对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

  3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。

  4、站点迁移,或域名更换时,请使用301返回码。

  文章整理者:北京seo,文章地址:http://www.pangziseo.com/seo_resources/117.html转载请保留。

时间: 2024-10-31 23:43:18

百度lee给出 http返回码的含义和建议的相关文章

js技术-百度云Table请求失败,返回状态码是240

问题描述 百度云Table请求失败,返回状态码是240 {"status":240,"message":"APP 服务被禁用}http://api.map.baidu.com/geodata/v3/poi/list?geotable_id=114366&ak=g14pLbVLOKULkhjf29VTuEq2 解决方案 APP 服务被禁用 你的使用超出了配额或者你的账户被封禁,具体你可以打电话问问.

网站404页面返回码错误导致的网站被K案例分析

我站平安的度过了8月的K站风波,然而却在本月不幸中招,终于被K. 近两个月百度的算法调整误伤了很多高质量的网站.但我们依然认为这只是百度的暂时调整,相信百度会认真对待每一个站,只要坚持提供高质量内容得到用户认可,迟早有一天会恢复收录并取得更好的排名. 经过我详细的研究,详细研究各站长工具提供的数据,并分析百度蜘蛛访问日志等,发现本次被K事件的主因是由于网站大规模改版导致的文件丢失导致的大量死链后本站对错误页面的404返回码处理环节出现了重大问题.次要原因是被某些被黑客入侵篡改的高权重网站的外链指

你可能用到的百度地图效果(附源码)

原文:你可能用到的百度地图效果(附源码)      这段时间需要实现百度地图的一些展示效果,虽然最终效果做出来了,可是这中间也走了很多的弯路,希望有用到的可以直接拿来用,少走一些弯路.百度地图为开发者提供了一系列的接口,点百度接口去百度接口.本文主要用到了以下几个效果: 1.热力图显示 2.自定义图标的聚合显示 3.云麻点显示       热力图显示       百度地图热力图是通过设置热力图半径.颜色.透明度等参数直观展示数据分布情况,而我这段时间所做的,就是通过一段时间内的订单数量,再结合经

母亲节百度钱包祭出优惠大礼包

这个周末,在北京双桥天泰新房村世纪华联店里,不少消费者拿着手机对着店里一张海报一阵猛拍,引来不少围观者.据介绍,这是百度公司旗下支付业务品牌百度钱包与国美在线为迎接母亲节,联合发起的"母婴专场'轻拍'返20元红券"活动.现场,一位用户向记者表达了活动感受,"这个'轻拍'购物的方式既简单又方便,以后买东西都不用在电脑前了,拍个照就能马上买到,不仅好玩新颖,还能省钱,感觉很不错."据介绍,此次国美在线母婴专区参加活动的商品共计40款,有好奇纸尿裤.美素佳儿奶粉.日本花王

git学习------> 解决Gitlab 版本升级之后,发送 merge request 出现 http 500 的返回码错误

今天有同事在Gitlab上发送 Merge Request的时候,直接出现如下所示的界面,提示http 500,服务器内部出错. 一.错误描述 1.1 创建新的 Merge Request 1.2 填写 Merge Request 相关信息 1.3 发送 Merge Request ,出现500错误 1.4 登录管理员账户,在[Admin Area]–>[Monitoring]–>[Logs]–>[production.log]里面,搜索到错误信息如下所示: 错误描述部分信息如下: St

http-android端上传图片失败,返回码500

问题描述 android端上传图片失败,返回码500 我在写一个安卓手机端的图片上传功能,写了个工具类用的是httpurlconnection发送post请求,在手机上调试,log信息显示http返回码500,那个服务端的接口一个链接地址在电脑浏览器上打开和用我手机浏览器打开均没有问题,返回码200,我将我的上传工具类直接拉出放到纯java程序里跑一下,是200成功的,偏偏在安卓app上调试这个功能就失败,请问可能会是什么原因? 解决方案 是不是权限没有设置好的问题? 解决方案二: 那个服务端的

cache策略实现的原理(200、304返回码含义)

什么是cache? 定义:浏览器缓存(Browser Caching)是为了加速浏览,浏览器在用户磁盘上对最近请求过的文档进行存储,当访问者再次请求这个页面时,浏览器就可以从本地磁盘显示文档,这样就可以加速页面的阅览. cache的作用: 1.减少延迟,让你的网站更快,提高用户体验.2.避免网络拥塞,减少请求量,减少输出带宽.   页面内容Cache策略: 目前我们业务的JS.css.静态页面文件和图片等资源放在imgcache域名机器上,是由运维人员在apache上统一设置缓存策略.前台通过H

iOS 扩展 UINavigationController 出栈返回到先前标记的位置

iOS 扩展 UINavigationController 出栈返回到先前标记的位置 太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转载请保留此句:太阳火神的美丽人生 -  本博客专注于 敏捷开发及移动和物联设备研究:iOS.Android.Html5.Arduino.pcDuino,否则,出自本博客的文章拒绝转载或再转载,谢谢合作. 这一功能,是突然想到去年看一个 Java 什么数据结构的原码

接口-用C#如何定义 API 错误返回码

问题描述 用C#如何定义 API 错误返回码 就像微博接口一样,用户登录失败返回一个错误返回码 V2新版微博接口API将对每次失败请求,返回以下错误码中的一种: 10001 : 系统错误10002 : 服务端资源不可用10003 : 远程服务出错10005 : 该资源需要appkey拥有更高级的授权10006 : 缺少 source参数(appkey)10007 : 不支持的 MediaType (%s)10008 : 错误:参数错误,请参考API文档10009 : 任务过多,系统繁忙10010