菜鸟SEOer浅谈robots.txt文件

  做SEO应该知道,robots.txt文件是一个网站必不可少的文件,但小马看到在很多中小企业的网站上还是没有这个文件,今天我们便来研究一下robots.txt文件的重要性。

  一:从搜索引擎角度

  当我们网站上有一些文件不想被搜索引擎蜘蛛抓取时,我们需要写个robots.txt文件,以此来告诉蜘蛛,这些文件不能被抓取,但是有的企业认为自己网站上没有不想蜘蛛抓取的内容,所以就忽略了robots.txt文件,那么,这样是不对的。

  随着搜索引擎越来越智能化,它访问一个新网站时,会首先访问这个网站的robots.txt文件,这也成为搜索引擎蜘蛛访问网站时的一个习惯,这个时候,如果你的网站上没有robots.txt这个文件,反而可能会造成搜索引擎蜘蛛对你的网站页面不能正常的抓取。所以小马建议,即使你的网站内容全都允许搜索引擎蜘蛛抓取,你也应该建立一个robots.txt文件,这代表的是对搜索引擎蜘蛛的友好。

  二:时常检查robots.txt文件

  每当我们在做网站的维护时,我们总是围着网站内容和网站外链转悠,每当我们的网站出现问题,我们首先就是对这些地方进行一一排查,而对于robots.txt文件,估计除了当初建立网站时写过外,已经好久都没搭理过了,这样是不对的。

  当一个黑客攻入我们的网站,它不需要在我们的网站上挂上黑链,链上黄赌毒网站,也不需要在我们的内容页加上指向它网站的隐藏链接,它只需要修改一下我们小小的robots.txt文件,就可以搞定我们了,经常看到有些人在搜索引擎上查询自己网站的收录时,发现出现了异常,于是开始排查,但是外链和内链都没有问题,这个时候,急的真是焦头烂额。这就是忽视了最简单而且最重要的因素----robots.txt文件。

  三:写robots.txt文件要全面

  robots.txt文件写作时也是需要规范的,不然就如同虚设,比如我们的网站上有的页面时动态化地址,我们知道这些动态化地址搜索引擎蜘蛛不能很好的抓取,于是我们在robots.txt文件里注明,有些SEOer在注明时会在第二行这样写:Disallow:/*?*,这就是不全面的。

  我们都知道动态化网址的结尾都是有好多参数的,如?,%等,所以当我们不希望搜索引擎蜘蛛抓取动态网址的页面时,我们就要在robots.txt文件里注明自己网站动态化网址出现的所有参数。不然,搜索引擎蜘蛛还是能够抓取我们网站的动态化网址,我们的robots.txt文件就如同虚设。

  文章出自SEO技巧博客http://www.waszj.com/乡村小马原创,转载请注明出处及作者

时间: 2024-10-18 22:13:28

菜鸟SEOer浅谈robots.txt文件的相关文章

浅谈Robots.txt 文件给网站带来的好处

作为一名网站优化人员,我们都很清楚Robots.txt文件对我们网站的重要性,Robots.txt文件只是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路,当蜘蛛搜索一个站点时,它首先爬行来检查该网站的根目录下是否存在Robots.txt文件,如果存在的话,搜索引擎会按照该文件的内容来确定访问范围,如果该文件不存在的话,那么搜索引擎就会沿着链接来抓取.那么程序员在设置Robots.txt文件时候应该了解到这个文件给我们网站带来了哪些好处? 第一, Robots.txt文件大大节省服务器宽带

浅谈网站优化robots.txt文件的写法

robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了.其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的.而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要.但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的.这里就详细介绍下,也算是自己温习温习. 什么是robots.txt文件 我们从这个文件名来看,它是.txt后缀

浅谈网站地图链接放在robots.txt文件里的用处

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 把网站地图链接放在robots.txt文件里,好处就是站长不用到每个搜索引擎的站长工具或者相似的站长部分去提交自己的sitemap文件.这样的方法可以帮助站长减轻工作. 各大搜索引擎都发布了对网站地图的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的链接.目前对此表示支持的搜索引擎公司有Google, Yahoo,而

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

新手SEOer浅谈新站上线时的一些基本操作

中介交易 SEO诊断 淘宝客 云主机 技术大厅 新站上线时需要注意什么事项?上线之后需要做什么?很多人懂得做网站,但是却不知道新站上线要做那些seo操作?在这一点一开始夏洛也是非常迷茫,那么没有错,我们今天就针对这两个疑问来拓展文章.一个刚开始的新站要想获得各大搜索引擎的信誉度,一般情况下要度过1至3个月的信用期,网站测试期间不要将网站域名泄露给搜索引擎,也就是不要在互联网上的任何搜索引擎可以抓取到的地方留下你的域名. 一.先来说说新站上线时需要注意什么事项,需要操作的细节: 1.先写robot

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

新站不收录不要忽略了robots.txt文件

今天无意中看到一位站长朋友的诉说,讲的是他新站为什么没有被收录,从发现问题的原因到解决问题中一系列的工作.感觉比较典型,很多人可能会遇到,现在贴出来分享给大家. 问题原因: 该站长在新站上线后不久,网站内部就出现了重大的bug(漏洞).该站长先用robots.txt文件屏蔽了搜索引擎的的抓取,然后对网站的bng进行修复. 问题处理: 等到网站的bug修复完成后,该网友再次对robots.txt文件进行了修改,允许所有搜索引擎的抓取.表面上看做到这一步就可以等搜索引擎过来抓取内容了,可是一个星期过

关于WordPress的robots.txt文件的那些事

安装完wordpress站点后关于robots.txt文件的书写一直烦恼着很多站长,Robots.txt文件协议又叫搜索引擎机器人协议,搜索引擎爬虫在爬取网站的时候,首先会看网站根目录下是否有robots.txt文件,然后遵循robots.txt协议爬取网站主希望搜索引擎爬取的内容.robots.txt文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,促进收录. 先来简单的说下robots.txt文件的规则: