站长们千万不要忽略Robots的使用

  之前我一直强调细节的优化,是的现在的百度对网站的要求就是看你的细节做得好不好,代码、标签等等有属于细节,那么Robots也属于网站细节的一部分,做好他对我们网站有一个很大的帮助,可能有很多新站长不知道Robots是一个什么东东,下面我就给大家说几点关于Robots的操作。

  一、Robots.txt的由来

  我们首先要明白Robots不是一个命令或者指令,Robots是一个网站和搜索引擎的第三方协议,协议的内容就是Robots.txt里面的内容,早期在网站是用于隐私保护用的,他是存在于我们网站根目录的一个txt文件。

  二、Robots.txt的作用

  我们做好网站上线的时候,会有很多不可抗拒的因素被搜索引擎放出来,从而导致我们的网页的质量整体下降,导致我们网站在搜索引擎的印象变差,Robots的作用就是屏蔽这些不可抗拒的因素不让蜘蛛把他们放出来,那么我们具体应该屏蔽哪一些页面呢?

  1.屏蔽一些无内容页面:给大家举个例子就了然了,例如:注册页、登陆页、购物页、发帖页、留言页、搜索首页、如果你做了404错误页面也要屏蔽。

  2.屏蔽重复页面:如果我们发现我们网站有两个内容相同的页面,但是路径不同,我们就要用Robots屏蔽一个页面,蜘蛛还是会抓取但是不会放出来,我们可以在谷歌站长工具里面直接查看被拦截的页面数量。

  3.屏蔽一些死链接页面

  我们只屏蔽那些带有普通特征的页面就可以,蜘蛛爬取不到并不意味着蜘蛛抓取不到地址,能够抓取到地址和能否抓取到是两个概念,当然我们可以进行处理的死链接我们是不需求屏蔽的,不可以处理的比如我们该路径造成的死链接我们是需要屏蔽的。

  4.屏蔽一些较长的路径:超过网址输入框的长路径我们可以用Robots屏蔽。

  三、Robots.txt的使用

  1.Robots.txt的建立

  在本地新建一个记事本文件,把它命名为Robots.txt,然后把这个文件放到我们的根目录下,这样我们的Robots.txt就建立完成了,有些开源程序比如织梦是自带Robots的,我们修改的时候只要从根目录下载就行。

  2.常见的语法

  User-agent这个语法是定义搜索引擎爬取程序的。Disallow这个是禁止的意思。Allow这个是允许的意思。

  我们先来认识搜索引擎抓取程序也就是蜘蛛或者机器人

  百度蜘蛛我们在Robots里就写Baiduspider而谷歌机器人我们就写Googlebot

  我们来介绍写法,我们的第一行是先要定义搜索引擎

  User-agent: Baiduspider(特别要注意的是我们在写Robots的时候冒号后面一定要有一个空格,同时如果我们要定义所有搜索引擎我们就要用*带代替Baiduspider)

  Disallow: /admin/

  这句话的意思是告诉百度蜘蛛您不要来收录我网站的admin文件夹当中的网页,如果我们把admin后面的斜杠去掉这个的意思即完全变了,意思就成了告诉百度蜘蛛您不要收录我根目录里所有的admin文件夹当中的网页。

  Allow意思是允许、不禁止,一般来说不会单独使用它,他会和Disallow一起使用,一起使用的目的是便于目录的屏蔽灵活的应用,更为了减少代码的使用,举个例子比如我们/seo/文件夹中有10万个文件,有两个文件是需要抓取的,我们总不能写几万个代码那样会累够呛,我们配合起来仅需要几行就行了。

  User-agent: *(定义所有搜索引擎)

  Disallow: /seo/ (禁止对seo文件夹进行收录)

  Allow: /seo/ccc.php

  Allow: /seo/ab.html

  同时允许这两个文件需要抓取收录,这样我们四行代码就解决了,有人会问是Disallow放在前面还是Allow放在前面,还是Disallow放在前面更规范。

  本文由http://www.51diaoche.net原创 欢迎转载 转载请注明原作者

时间: 2025-01-09 21:30:06

站长们千万不要忽略Robots的使用的相关文章

网店无忧:淘宝开店千万别忽略了百度

中介交易 SEO诊断 淘宝客 云主机 技术大厅 马云最近"折腾"得很历害,第六届网商大会也正在如火如荼地进行中,所有的信息都表明淘宝网的春天即将到来,可是,在淘宝开店的掌柜们,却面临着更大的压力.马云的"折腾",给淘宝店主带来更多机会的同时,却也带来更多的竞争对手.今天其他话题不说,只谈一点:淘宝开店千万别忽略了百度. 众所周知的原因,淘宝上的商品在百度上是无法查询到的,虽然现在有了淘宝客这一宣传媒介,但百度本身的巨大流量却无法导入到淘宝店上,不能不说是一种遗憾.

浅谈被站长和企业网商忽略的百科类营销

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 连续一段时间陆续在A5上写站长和企业网商的网络营销策略:说说站长和企业网商如何做好博客营销,站长和企业网商如何做好问答类平台网络营销,站长和企业网商如何做好网络软文营销,站长和企业网商如何做好论坛营销,而是我的切身实践体会的精华总结,其中有不少网友加我Q和我交流网络营销方法,从他们那学习改进了很多的经验,也加深了我对以上各种网络营销方法的了解

seo优化-站长千万不要忽略长尾关键词

关于如何发掘长尾关键词,我在这里说三点: 第一. 根据最新的新闻或者听到的信息联想关键词. 就拿我们的论坛来举例吧.大家应该都知道最近百度不稳定.那么应该就有人会百度一下找答案,我们可以站个他们的角度想一下.会搜索什么呢.要是我可能会搜:百度最近算法变化 或者网站排名下降原因 等等 .我们就可以用这些作为我们网站的长尾关键词. 第二. 查搜索引擎相关搜索 比如还是上面那个.百度不稳定 .在百度里面搜索一下.下面会出现一些相关搜索 :百度收录不稳定 这个我就可以作为长尾 ,还可以继续往下点点看.

浅析:新手站长做优化不能忽略的细节

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站优化随着搜索引擎算法的进步变得越来越精细,很多站长觉得自己在优化中付出了很多努力并且做得不比别人差,却苦恼于优化结果并不理想,甚至远远不及别人.这样的结果往往是因为忽略了细节问题导致的,在seo行业细节是决定网站优化成败的关键. 通过和一些站长交流加上自己对优化的研究,最终整理了几条新手做网站优化容易忽略的问题来跟大家分享,整理如下: 1

企业千万不要忽略博客和微博 提高流量推动B2C、B2B

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 HubSpot公司最近对其7000多企业客户做了一项"博客.SNS对网站流量影响"的调查,结果发现,小企业如果用好企业博客和社交网络,可以大幅度提高企业网站的流量,同时大公司企业博客更能对企业发展产生巨大的影响,同时也会对B2C.B2B企业的业务开展也会起到很大的推动作用. 企业博客每月博文数量对网站流量的影响.从上图我们

步入OpenStack云 千万别忽略存储要素

虚拟化是过去十年来IT领域最大的技术创新.它有助于通过消除服务器,存储和网络之间的孤岛来简化IT管理.它还允许应用程序的设计方式不需要依赖任何底层的硬件平台,可以无缝地进出云端. 然而,企业现在希望能够实时部署应用程序更改,从开发到实时环境,只需点击一个按钮,而这无法通过虚拟化所能完成的功能.对IT环境的需求不断增加,导致IT部门头疼,因为现有的技术和资源通常很紧张.其中主要关注的是更多地使用自动化和全面的基础架构编排.为了解决复杂的自动化需求,很多人都转向OpenStack. 根据OpenSt

新站不收录不要忽略了robots.txt文件

今天无意中看到一位站长朋友的诉说,讲的是他新站为什么没有被收录,从发现问题的原因到解决问题中一系列的工作.感觉比较典型,很多人可能会遇到,现在贴出来分享给大家. 问题原因: 该站长在新站上线后不久,网站内部就出现了重大的bug(漏洞).该站长先用robots.txt文件屏蔽了搜索引擎的的抓取,然后对网站的bng进行修复. 问题处理: 等到网站的bug修复完成后,该网友再次对robots.txt文件进行了修改,允许所有搜索引擎的抓取.表面上看做到这一步就可以等搜索引擎过来抓取内容了,可是一个星期过

苦逼站长与robots不得不说的故事

小猫今天想说的就是一个站长小伙伴们都非常熟悉的东西:robots文件,相信小伙伴们对这个文件都不陌生吧!但是呢小猫就发现,很多的站长小伙伴都忘记了robots的重要性,robots表示很生气,后果很严重.小猫的SEO都是自学的,看到robots文件的问题以后,我就问了一些SEO大 神,robots文件很重要吗?当时,这位大神就对小猫语重心长的说:robots可以成就你的网站,也可以毁掉你的网站,所以,robots还是很重要的.小猫用下面的小故事来告诉大家robots对站长小伙伴多么的重要,这个故

站长不要忽视robots.txt的存在

认识了很多站长,大多数会使用robots.txt文件,只有40%左右的站长不知道robots.txt文件的重要性.当然了,如果你的网站完全没有让搜索引擎教程禁止的内容,可以不用robots.txt文件. 到底robots.txt是何许人也? robots.txt是一个纯文本文件,它就像网站地图一样,给搜索引擎指明道路..当搜索引擎蜘蛛爬取网站的时候,一般会确实你网站的目录下是否有robots.txt这个文件.如果有的话,会按照文件的内容来爬取该爬的网站内容.如果没有这个文件,蜘蛛就会跟着链接直接