俗话说:懂技术的不一定懂SEO,懂SEO的不定懂技术,但是对于站长们来说,必选要孰知最基本的技术,不要求懂得高深的语言,但是基本的搜索引擎协议是需要孰知的。跟站长们交流的时候发现,很多站长都无法正确抓握搜素协议,特别是在robots.txt文件上,北京兼职吧给大家说说此协议到底深奥在何处。
robots.txt文件是网站根目录下面的纯文本文件,是蜘蛛索引网站时第一个要读取的文件,它用于指定spider在您网站上的抓取范围,当网站中有不需要被蜘蛛抓取的内容时,可以使用robots.txt文件加入屏蔽,以免增加网站蜘蛛的抓取难度。但是就这神奇的文件,可以帮助你网站更好的优化,也可以使一部分站长栽倒在它身上。
首先要正确写作文件格式。此文件的命名必须为robots.txt,必须防止到网站的根目录下,必须通过http://www.jianzhi8.com/robots.txt可以访问到,只要这样蜘蛛来网站索引时,首先抓取此文件,然后根据此文件的指数再去索引网站其他位置。要想正确的写对robots文件,首页要对文件的基本函数进行了解:
User-agent:在后面加上* 意思是允许任何搜索引擎对网站进行抓取;User-agent: Baiduspider意思是允许百度搜索引擎对网站进行抓取,如果网站中只写了这个属性,那就表明此网站只接受百度蜘蛛的抓取,其他蜘蛛不可以索引。
Disallow:这个函数的意思是静止蜘蛛访问函数后面的网站目录,如果网站所有的都允许那就写:如果都允许收录: Disallow:,像淘宝网的文件中写到,禁止百度蜘蛛的抓取,网站任何位置都不允许抓取。
User-agent: Baiduspider
Disallow: /
Disallow函数的/之差,给网站带来的影响是巨大的,所有站长们一定要学会正确的写robots文件,至少上面说到的那个函数要清楚。给大家看下面的列子:
User-agent: *
Disallow: / 不允许抓网站的任何目录
Allow: / 允许抓取
上面的robots文件写法出现了严重的错误,签名写上不允许蜘蛛抓取网站的任何目录后面写的是允许所有搜索引擎抓取网站页面,对于这样的robots文件格式,等蜘蛛的数据库更新后,网站的收录会变成0,并不是因为网站的优化手段出错,也不是因为网站使用作弊手法,而是站长一不小心栽倒robots文件上了,这亏就吃大咯。
合理利用robots文件可以帮助网站更好的收录,但是错误的写法可能导致损失严重。给站长们说几点利用robots文件提高优化的方法:
1、减少重复收录,检查网站收录时会发现,蜘蛛会重复收录网站的内容,不仅可以收录.Html的,还可以收录带*?*的动态页面,这时我们并可以使用robots文件屏蔽,避免重复收录:Disallow: /*?*。
2、只允许访问以.htm介绍的URL,网站有时因为程序问题,会有多条路径访问内页,但是为了只让蜘蛛收录和抓取.htm介绍的URL,可以在文件中使用"$"限制访问url,Allow: /*.htm$,Disallow: / ,这样并可以仅允许访问以".htm"为后缀的URL。
3、有的网站为了提高用户的体验度,会给网站添加大量的动态图片,但是这些图片又很难被蜘蛛抓取,这些图片对网站的优化意义又不大,这时并可在文件中添加函数:Disallow: /*.gif$,并可禁止蜘蛛抓取.gif格式图片。
robots文件的发展已经有10年之余,很多搜索引擎已经对文件进行认可,正确的文件使用可更好的帮助站长们优化网站,这些搜索协议真的算不上是技术的东西,不管是对新手站长们还是老鸟们,这些基本的东西都应该要知道的,否则使用不当便会造成很大的影响。北京兼职吧(http://bj.jianzhi8.com)希望站长们闲暇之余还是要学些技术,以免栽倒的冤枉无话说。