站长要孰知搜索协议 小心栽倒在robots.txt文件上

  俗话说:懂技术的不一定懂SEO,懂SEO的不定懂技术,但是对于站长们来说,必选要孰知最基本的技术,不要求懂得高深的语言,但是基本的搜索引擎协议是需要孰知的。跟站长们交流的时候发现,很多站长都无法正确抓握搜素协议,特别是在robots.txt文件上,北京兼职吧给大家说说此协议到底深奥在何处。

  robots.txt文件是网站根目录下面的纯文本文件,是蜘蛛索引网站时第一个要读取的文件,它用于指定spider在您网站上的抓取范围,当网站中有不需要被蜘蛛抓取的内容时,可以使用robots.txt文件加入屏蔽,以免增加网站蜘蛛的抓取难度。但是就这神奇的文件,可以帮助你网站更好的优化,也可以使一部分站长栽倒在它身上。

  首先要正确写作文件格式。此文件的命名必须为robots.txt,必须防止到网站的根目录下,必须通过http://www.jianzhi8.com/robots.txt可以访问到,只要这样蜘蛛来网站索引时,首先抓取此文件,然后根据此文件的指数再去索引网站其他位置。要想正确的写对robots文件,首页要对文件的基本函数进行了解:

  User-agent:在后面加上* 意思是允许任何搜索引擎对网站进行抓取;User-agent: Baiduspider意思是允许百度搜索引擎对网站进行抓取,如果网站中只写了这个属性,那就表明此网站只接受百度蜘蛛的抓取,其他蜘蛛不可以索引。

  Disallow:这个函数的意思是静止蜘蛛访问函数后面的网站目录,如果网站所有的都允许那就写:如果都允许收录: Disallow:,像淘宝网的文件中写到,禁止百度蜘蛛的抓取,网站任何位置都不允许抓取。

  User-agent: Baiduspider

  Disallow: /

  Disallow函数的/之差,给网站带来的影响是巨大的,所有站长们一定要学会正确的写robots文件,至少上面说到的那个函数要清楚。给大家看下面的列子:

  User-agent: *

  Disallow: / 不允许抓网站的任何目录

  Allow: / 允许抓取

  上面的robots文件写法出现了严重的错误,签名写上不允许蜘蛛抓取网站的任何目录后面写的是允许所有搜索引擎抓取网站页面,对于这样的robots文件格式,等蜘蛛的数据库更新后,网站的收录会变成0,并不是因为网站的优化手段出错,也不是因为网站使用作弊手法,而是站长一不小心栽倒robots文件上了,这亏就吃大咯。

  合理利用robots文件可以帮助网站更好的收录,但是错误的写法可能导致损失严重。给站长们说几点利用robots文件提高优化的方法:

  1、减少重复收录,检查网站收录时会发现,蜘蛛会重复收录网站的内容,不仅可以收录.Html的,还可以收录带*?*的动态页面,这时我们并可以使用robots文件屏蔽,避免重复收录:Disallow: /*?*。

  2、只允许访问以.htm介绍的URL,网站有时因为程序问题,会有多条路径访问内页,但是为了只让蜘蛛收录和抓取.htm介绍的URL,可以在文件中使用"$"限制访问url,Allow: /*.htm$,Disallow: / ,这样并可以仅允许访问以".htm"为后缀的URL。

  3、有的网站为了提高用户的体验度,会给网站添加大量的动态图片,但是这些图片又很难被蜘蛛抓取,这些图片对网站的优化意义又不大,这时并可在文件中添加函数:Disallow: /*.gif$,并可禁止蜘蛛抓取.gif格式图片。

  robots文件的发展已经有10年之余,很多搜索引擎已经对文件进行认可,正确的文件使用可更好的帮助站长们优化网站,这些搜索协议真的算不上是技术的东西,不管是对新手站长们还是老鸟们,这些基本的东西都应该要知道的,否则使用不当便会造成很大的影响。北京兼职吧(http://bj.jianzhi8.com)希望站长们闲暇之余还是要学些技术,以免栽倒的冤枉无话说。

时间: 2024-09-14 19:36:28

站长要孰知搜索协议 小心栽倒在robots.txt文件上的相关文章

http协议- 使用http put把本地文件上传到服务器的的时候碰到的问题

问题描述 使用http put把本地文件上传到服务器的的时候碰到的问题 各位好,我在用libcurl的接口往localhost服务器上传文件里上传文件的时候出现了下面的错误(用的机器系统是linuxmint17,搭建的服务器Apache + PHP5 + MySQL)*** We read 4257 bytes from file<!DOCTYPE HTML PUBLIC ""-//IETF//DTD HTML 2.0//EN""> 405 Method

不可大意!小心三类危险的TXT文件

什么,TXT文件也有危险?是的!TXT文件不仅有危险,而且可以是非常的危险!不过,严格说来,应该给这个所谓的"TXT"文件加个引号,因为它们是看起来是TXT文件,实则是隐藏了其真实扩展名的其它文件,但在普通人看来它们的确是"TXT"文件!下面就让我们一起来了解一下这些危险的"TXT"文件. 一. 隐藏HTML扩展名的TXT文件 假如您收到的邮件附件中有一个看起来是这样的文件:QQ靓号放送.txt,您是不是认为它肯定是纯文本文件?我要告诉您,不一定

Robots.txt 协议详解及使用说明

一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓):一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓).   当一个搜索机器人(蜘蛛)访问一个站点时,它会首先检查网站根目录下是否存在robots.txt,如果存

分析robots.txt禁止页面出现在搜索结果中的影响

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现.这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了. robots.txt里禁止的页面为什么出现在搜索结果中 robots.txt禁止抓取的文件搜索引擎将不访问,不抓取.但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下

随意修改robots.txt 小心搜索引擎不收录你的站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 Robots.txt是用来告诉bot的访问权限,因Robots.txt协议并不是一个规范,而只是约定俗成的,通常大多数搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面,使用方法是将robots.txt文件放在网站根目录下.举例来说,当搜索引擎访问一个网站(比如http://www.admin5.com)时,通常首先会检查该网站

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

站长不要忽视robots.txt的存在

认识了很多站长,大多数会使用robots.txt文件,只有40%左右的站长不知道robots.txt文件的重要性.当然了,如果你的网站完全没有让搜索引擎教程禁止的内容,可以不用robots.txt文件. 到底robots.txt是何许人也? robots.txt是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路..当搜索引擎蜘蛛爬取网站的时候,一般会确实你网站的目录下是否有robots.txt这个文件.如果有的话,会按照文件的内容来爬取该爬的网站内容.如果没有这个文件,蜘蛛就会跟着链接直接

新手站长浅谈搜索结果的不同显示格式(二)

在上篇文章新手站长浅谈搜索结果的不同显示格式(一)中,分别从常规搜索结果.经典搜索结果列表.整合搜索结果.缩进列表方式.全站链接展示等五个方面和大家分享了搜索引擎的五种不同显示格式,当然搜索引擎也不只是这五种显示格式,还有包括迷你全站链接.One-box.富摘要.面包屑导航.说明文字链接等另外五种格式.希望通过本文能让大家更多去了解搜索引擎的基本知识.好了,开始今天的文章. 第六.迷你全站链接:迷你全站链接往往很少见,但对于一些权重高的网站就会出现这种形式.这种方式英文叫做Mini Siteli

雅虎和微软同意将搜索协议谈判的最后期限延长30天以修改合作协议

[TechWeb报道]据路透社报道,雅虎和微软同意将搜索协议谈判的最后期限延长30天,以修改由两家公司前CEO精心制定的一项复杂合作协议.两家公司的搜索合作协议在2010年生效,协议条款允许他们在5年后通过谈判修改或终止协议. 按照协议条款,两家公司在2月23日后有30天时间修改协议.根据周五提交给美国证券交易委员会(SEC)的文件,雅虎和微软都同意将期限延长至2月23日后的60天.雅虎发表声明称:"我们重视与微软的合作关系,并继续讨论未来的计划.但此刻我们没有进一步的消息要公布."对