搜索引擎的蜘蛛人(ROBOTS)秘密

  我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。

  对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。  

  一、robots.txt

  1、 什么是robots.txt?

  robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

  当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

  网站 URL       相应的 robots.txt的 URL
 
http://www.w3.org/    http://www.w3.org/robots.txt
 
http://www.w3.org:80/   http://www.w3.org:80/robots.txt
 
http://www.w3.org:1234/  http://www.w3.org:1234/robots.txt
 
http://w3.org/      http://w3.org/robots.txt

  2、 robots.txt的语法

  "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

  "<field>:<optionalspace><value><optionalspace>"。

  在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

  User-agent: 

  该项的值用于描述搜索引擎robot的名字,在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中, "User-agent:*"这样的记录只能有一条。

  Disallow :

  该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如"Disallow: /help"对/help.html 和/help/index.html都不允许搜索引擎访问,而"Disallow: /help/"则允许robot访问/help.html,而不能访问/help/index.html。

  任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt"文件中,至少要有一条Disallow记录。如果 "/robots.txt"是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

时间: 2025-01-21 03:46:36

搜索引擎的蜘蛛人(ROBOTS)秘密的相关文章

搜索引擎蜘蛛及Robots详解

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 对 于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签. 一.robots.txt 1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被

搜索引擎的十大秘密!

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

百度不支持nofollow的robots对策

nofollow标签是由Google领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响,减少博客的垃圾留言,目前Google.Yahoo.MSN都标志支持这一标签.当超级链接中出现nofollow标签后,搜索引擎会不考虑这些链接的权重,不过放置nofollow标签不代表搜索引擎不索引其链接,经过我的测试,即使放置nofollow标签,Google还是会索引部分链接内容. 这个标签主要是针对垃圾链接的,因为留言评论中的垃圾链接会影响网站在搜索引擎中排名,对博客网站产生负面的影响,因此Gog

实例浅谈在robots文件上我们容易出现的三点细节上的错误

Robots.txt文件看似只有几行字母,但是其实有很多细节需要我们注意的.因为如果你不注意这些细节,有的语句将不会发挥效果,甚至出现发效果.而robots.txtt文件是搜索引擎进入我们站点后访问的第一个文件,其写的好不好关系到站点的seo能否顺利进行.下面笔者将举例分析三个在robots.txt文件时我们容易出现的细节上的错误. 错误一:Allow与disallow顺序颠倒 首先我们来看一段robots.txt语句: User-agent: * Allow: / Disallow: /abc

修改robots对网站的影响

说实话,做网站做这么长时间,什么样的事情都遇到过,最常见的也是最让站长头痛的无非就是网站降权,网站主要关键字下降,网站快照不更新,外链数量减少等等,这些问题往往就是由于建站初期的准备工作没有做好,导致后期修改网站板块或者其他一些地方所引起的,那么今天笔者就和他家探讨一下robots文件的修改对网站的影响. 网站robots文件的作用 robots文件对于新手站长来说可能不是很熟悉,这也导致了很多新站排名不好或者收录不好,robots文件说白了就是针对搜索引擎的指示文件,告诉搜索引擎那些内容可以收

百度:Robots协议是国际通行规范 理应共同遵守

中介交易 SEO诊断 淘宝客 云主机 技术大厅 昨日百度诉奇虎360违反"Robots协议"抓取.复制其网站内容侵权一案,昨日上午在北京市第一中级人民法院开庭审理.百度方面声明称,360搜索在未获得百度公司允许的情况下,违反业内公认的Robots协议,抓取百度旗下百度知道.百度百科.百度贴吧等网站的内容,构成了不正当竞争.据了解,此次索赔金额高达1亿元. 百度:Robots协议是行业规范 昨天上午9时,法庭大门打开,双方的律师团队鱼贯而入,随后书记员搬进该案的证据材料,40厘米高的材料

人民日报:不遵守robots会侵犯隐私

中介交易 SEO诊断 淘宝客 云主机 技术大厅 如果互联网没有规则,互联网竞争不遵守规则,那必然是竭泽而渔,将不断消耗中国互联网的创新精神和创新力量,损害网民利益和互联网的发展 近日,腾讯诉360的安全工具"扣扣保镖"涉嫌不正当竞争案,在广东省高级人民法院开庭,索赔经济损失1.25亿元.这是一年前腾讯和360大战的余波.一个月前,则是百度和360的搜索之争,也惹起互联网上又一场口水仗,更引起双方暗中的技术互制,至今仍是僵持不下. 中国互联网的这种善于折腾早已被网民熟知,在微博上看热闹的

揭秘搜索引擎商业模式&amp;nbsp;注意力批发商与搜索联盟

     上一篇文章中我们讲到搜索引擎后台工作的秘密,蜘蛛程序也好,超链分析也好,搜索引擎最终给广大用户带来的是一种便捷的信息获取方式:在搜索框里输入一个关键词,立刻就可以得到互联网公开信息中最相关的查询结果.凭着这种"简单可依赖"的特性,好的搜索引擎一下子就吸引了大量的互联网用户. 然而,大家更感兴趣的另一面是,搜索引擎的海量用户数是如何转化为公司盈利的呢?在这里,搜索引擎不仅扮演了"媒体集成"的角色,更关键是扮演了一个新的互联网用户注意力批发商的角色. &quo