robots.txt和Robots META标签的使用

     我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
     对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

     一、   robots.txt
1、 什么是robots.txt?
robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
w3.org
http://www.w3.org/robots.txt
w3.org:80
http://www.w3.org:80/robots.txt
w3.org:1234
http://www.w3.org:1234/robots.txt
w3.org/
http://w3.org/robots.txt
2、 robots.txt的语法

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
    "<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

时间: 2024-08-02 04:20:44

robots.txt和Robots META标签的使用的相关文章

robots.txt和Robots META标签

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 作者:平文胜 我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一

robots txt 写法-robots.txt 写法 robots.txt 写法

问题描述 robots.txt 写法 robots.txt 写法 User-agent: * Allow:/html/ allow:/index.php$ allow:/index.html$ Disallow:/ 以上只收录html和首页,这样写对吗 解决方案 SEO 必备--robots.txt写法robots.txt的详细写法实例分析Robots.txt写法 解决方案二: 嗯,应该是对的,具体的写法可以去参考百度开发者网站上的,里面有各种详细的配置 解决方案三: $表示匹配后面任意字符.h

Robots.txt编写似雷区 稍有不慎“毒害甚深”(一)

每个人都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比如会员密码等等,而想要遮挡住这部分隐私,一般情况下站长都会在第一时间想到Robots.txt.没错,Robots.txt文件的使用的确可以给蜘蛛指明道路,告诉它什么地方该去,什么地方不该去,也正是因为这点原因,很多站长都热衷于用Robots.txt,但是大家真的会用Robots.txt吗?对于它的编写规则大家又知道多少呢?本人不才,但对于这方面总归有点经验,在这分享出来,让大家有个参考,当然老鸟可以飞过了. Robots.t

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文

Robots.txt 协议详解及使用说明

一.Robots.txt协议 Robots协议,也称为爬虫协议.机器人协议等,其全称为"网络爬虫排除标准(Robots Exclusion Protocol)".网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.也既是Robots的用法有两种,一种是告诉搜索引擎哪些页面你不能抓(默认其他的就可以抓):一种是告诉搜索引擎你只能抓取哪些页面(默认其他的不可以抓).   当一个搜索机器人(蜘蛛)访问一个站点时,它会首先检查网站根目录下是否存在robots.txt,如果存

robots.txt禁止搜索引擎收录的方法

搜索引擎 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容. 二. robots.txt文件放在哪里?robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站( 比如http://www.abc.

什么是robots.txt?_网站运营

robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制.这些漫游器是自动的,在其访问网页前会查看是否存在阻止其访问特定网页的 robots.txt 文件. 如何创建 robots.txt 文件? 可以在任何文本编辑器中创建此文件.该文件应为 ASCII 编码的文本文件,而非 HTML 文件.文件名应使用小写字母. 语法最简单的 robots.txt 文件使用两条规则: User-Agent:适用下列规则的漫游器 Disallow:要拦截的网页 这两行被视为文件中的一个条目.您

网站优化:robots.txt使用教程

首先,我来介绍一下什么是robots.txt:robots.txt是搜索引擎中访问网站的时候要查 看的第一个文件.Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面.最后,robots.txt必须放置在一个站点的根目录下. 大家可以参考一下谷歌.百度和腾讯的

META标签的常见用法

最近,Danny Sullivan谈到了如何处理的搜索引擎meta标签的问题,以下是一些关于在Google中如何处理这些问题的答案. 多内容数值 我们建议你把所有的Meta标签内容放在一个meta中.这将使得meta标签更易于读取并降低发生错误的概率.例如: <META NAME="ROBOTS" C><metaname="robots"c> 如果一行包含对个meta标签,我们将会累加标签的内容,例如,我们会将 <META NAME=&