深入认识robots

摘要: 深入认识robots 搜索引擎使用spider程序自动范文互联网上的网页并获取网页信息。Spider在访问一个网站时,会首页检查该网站的根域名下是否有一个叫robots.txt的纯文本,这个文件用于指

深入认识robots

搜索引擎使用spider程序自动范文互联网上的网页并获取网页信息。Spider在访问一个网站时,会首页检查该网站的根域名下是否有一个叫robots.txt的纯文本,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在文件中声明改网站中哪些目录不让搜索引擎收录。(robots.txt文件应该放置在网站根目录下。)

1、 Robots的用法

User-agent:定义进制搜索引擎名字,比如说:百度(Baiduspider)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎

Disallow:不允许收录

Allow:允许收录

案例:

User-agent: * (声明禁止所有的搜索引擎抓取以下内容)

Disallow:/blog/(禁止网站blog栏目下所有的页面。比如说:/blog/123.html)

Disallow:/api(比如说:/apifsdfds/123.html也会被屏蔽。)

Allow:/blog/12/(一般情况下不需要写Allow的,而我们在禁止的目录下面,我们需要让搜索引擎收录,那么我们就可以使用Allow,比如说我们前面禁止了blog栏目下所有的页面,同时我们想/12/栏目下被收录,这个时候我们就需要通过Allow来允许搜索引擎的收录。)

Disallow:*?*(只要你的路径里面带有问号的路径,那么这条路径将会被屏蔽。)

Disallow:/*.php$(意思是以.php结尾的路径全部屏蔽掉。)

如何使用Robots提升排名

一、屏蔽死链接

许多时候,我们网站会产生死链接,比如说:网站改版、文章删除等,都很有可能会导致网站出现404页面,那么这个时候我们就需要通过robots来屏蔽这些死链接。查看死链的方法有以下两种:

1、)通过网站日志查询。

我们可以通过下载网站日志来查看我们的404页面(网站日志可以向空间商要,空间商会提供下载通道),我们用txt打开网站日志,通过搜索“404”,如果你网站有404页面,并且被访问到了,那么这个时候就会被网站日志给记录。

2、)百度站长平台查询

我们首先需要验证百度站长平台(如何验证就不说了,最基本的。)验证以后,我们通过百度站长工具的死链工具,可以清楚的看到,我们网站有哪些死链接。

二、屏蔽无价值的页面

许多网站都有一些没有价值的页面,比如说SEO指导中心的用户个人中心页面,这个个人中心页面不会对网站产生价值,在百度上面的展现也不会给网站带来权重。因此我们需要利用robots来屏蔽这样的页面。又比如说:一个企业网站的联系我们页面,这种页面不会给网站带来权重,用户也不会去搜索“联系我们”来找他想要的产品。因此我们需要把这种页面同时屏蔽。

三、屏蔽重复路径

当你网站出现重复路径的时候,百度将会对我们的网站进行直接降分,比如说:一个网站做了伪静态,同时他的动态页面也可以访问,这个时候就会出现重复路径。因此我们需要通过robots屏蔽这些重复路径。

总结:也许很多人都不知道,许多细节都很有可能是你网站排名不上的原因,而这些小小的细节往往被大家给忽略了。同时希望站长在做网站优化的时候多多关注一些网站细节的问题。

时间: 2024-09-12 13:43:36

深入认识robots的相关文章

robots.txt 指南-介绍[翻译]

原文:http://javascriptkit.com/howto/robots.shtml译者:Tony Qu,BluePrint翻译团队     有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

百度不支持nofollow的robots对策

nofollow标签是由Google领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响,减少博客的垃圾留言,目前Google.Yahoo.MSN都标志支持这一标签.当超级链接中出现nofollow标签后,搜索引擎会不考虑这些链接的权重,不过放置nofollow标签不代表搜索引擎不索引其链接,经过我的测试,即使放置nofollow标签,Google还是会索引部分链接内容. 这个标签主要是针对垃圾链接的,因为留言评论中的垃圾链接会影响网站在搜索引擎中排名,对博客网站产生负面的影响,因此Gog

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

如何写robots.txt 文件?

robots.txt文件是放在网站的根目录下,作用是告诉搜索引擎网站的哪些文件,哪些目录可以被索引,哪些不要索引.因此,这个文件是相当的重要,正确书写好robots.txt文件,可以保证你的网页被搜索引擎正确地索引.收录. 书写robots.txt文件时,要使用纯文本的编辑器,使文件是纯文本的格式.robots.txt文件的结构还是比较简单的.它是由一行一行的纪录组成,每行由两个部份组成:<Field> : <value> <Field> 有两种,一个是User-age

搜索引擎指南robots.txt文件

搜索引擎 有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人.每天,上百个这样的爬虫会出来对网站进行快速的搜索.不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的.作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的. 创建robots.txt文件 好,现在我们开始行动.创建

苦逼站长与robots不得不说的故事

小猫今天想说的就是一个站长小伙伴们都非常熟悉的东西:robots文件,相信小伙伴们对这个文件都不陌生吧!但是呢小猫就发现,很多的站长小伙伴都忘记了robots的重要性,robots表示很生气,后果很严重.小猫的SEO都是自学的,看到robots文件的问题以后,我就问了一些SEO大 神,robots文件很重要吗?当时,这位大神就对小猫语重心长的说:robots可以成就你的网站,也可以毁掉你的网站,所以,robots还是很重要的.小猫用下面的小故事来告诉大家robots对站长小伙伴多么的重要,这个故

ROBOTS.TXT指南

Robots.txt指南 当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件.Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的.这就是大家在网络上常看到的"拒绝Robots访问标准"(Robots Exclusion Standard).下面我们简称RES. Robots.txt文件的格式:Robots.txt文件的格式比较特殊,它由记录组成.这些记录通过空行分开.其中每条

Robots Meta Tag的使用

Robots META tag用于告诉一个Web Robot某一个网页可否被索引以及可否跟踪其页上的链接.该标记元已占据愈来愈重要的位置.而且,它也应用于没有对服务器顶级目录下的robots.txt文件的控制权限,有些搜索引擎现今已完全遵循Robots Meta Tag,如Inktomi. Robots Meta Tag的格式: The Robots META tag放于后台HTML源代码的标头区(HEAD区)中,其格式类似于:(大小写均可) <HTML> <HEAD> <M