说到掉渣的ROBOTS.TXT的写法

摘要: 记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。

记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。

首先,我们先来认识我们亲爱的蜘蛛们吧:

国内的搜索引擎蜘蛛

百度蜘蛛:baiduspider

搜狗蜘蛛:sogou spider

有道蜘蛛:YodaoBot和OutfoxBot

搜搜蜘蛛: Sosospider

国外的搜索引擎蜘蛛

google蜘蛛: googlebot

yahoo蜘蛛:Yahoo! Slurp

alexa蜘蛛:ia_archiver

bing蜘蛛(MSN):msnbot

Robots.txt的几个常用英文意思

• User-Agent: 适用下列规则的漫游器

• Allow: 充许被抓取的网页

• Disallow: 要拦截的网页

Robots.txt的两个常用符号

“*”: 匹配0或多个任意字符(也有所有的意思)

“$”:匹配行结束符。

介绍得差不多了,下面来进入正题,Robots.txt:

一、充许所有的蜘蛛抓取:

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

(*号可以理解为所以的意思)

二、禁止所有的robot抓取

User-agent: *

Disallow: /

三、禁止某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介绍得有)

Disallow: /

四、只充许某一蜘蛛抓取:

User-agent: 蜘蛛名(上面介绍得有)

Disallow:

User-agent: *

Disallow: /

上半部分是禁止该蜘蛛抓取,下半部分是充许所有,总体意思就是禁止此蜘蛛,充许其它蜘蛛。

五、禁止蜘蛛抓取某些目录

如禁止抓取admin和manage目录

User-agent: *

Disallow: /admin/

Disallow: /manage/

六、禁止蜘蛛特定后缀文件,这个用“*”号

如禁止抓取.htm的文件

User-agent: *

Disallow: *.htm(*号后面然后是点文件名,如.asp,.php)

七、仅充许抓取特定后缀文件,这个用“$”号

如仅充许.htm的文件

User-agent: *

Allow: .htm$

Disallow: /

(图片也可以参考第六条和第七条这个样子)

八、禁止抓取动态网页

User-agent: *

Disallow: /*?*

这个在论坛很有用,一般伪静态后,就不需要搜索引擎再收录其动态地址了。做论坛的朋友们注意了。

九、声明网站地图sitemap

这个告诉搜索引擎你的sitemap在哪

Sitemap: http://你的域名/sitemap.xml

做完这些我们如何检查我们的robots.txt这个文件的有效性呢?推荐使用 Google管理员工具,登录后访问“工具 ->分析 robots.txt”,检查文件有效性。

原创文章请注明转载自:武汉seo-sem说

本文地址:http://www.semsay.com/seo/37.html

时间: 2024-10-30 09:54:32

说到掉渣的ROBOTS.TXT的写法的相关文章

搜索引擎robots.txt基础写法

首先,我们从其定义讲到其使用方法,方便广大seoer更加精准的使用rotbots.txt使用. 一.定义: robots.txt 是存放在站点根目录下的一个纯文本文件,让搜索蜘蛛读取的txt文件,文件名必须是小写的"robots.txt". 二.作用: 通过robots.txt可以控制搜索引擎收录内容,告诉蜘蛛哪些文件和目录可以收录,哪些不可以收录. 三.robots.txt 放置位置 robots.txt文件应该放置在网站根目录下.举例来说,当spider访问一个网站 (比如 htt

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

浅谈网站优化robots.txt文件的写法

robots.txt文件,相比朋友们都或多或少的听说过,也可能自己已经写过了.其实到目前为止我本人还没写过robots.txt文件,不是不会写,只是感觉博客中没什么内容需要阻止蜘蛛抓取的.而且想必大家也知道一个个人独立博客中出现死链接的概率应该是非常小的,不需要过多的进行死链接处理所以我感觉没什么必要.但是robots.txt文件写法作为个人站长的必须掌握的技能之一,其用处还是很广泛的.这里就详细介绍下,也算是自己温习温习. 什么是robots.txt文件 我们从这个文件名来看,它是.txt后缀

了解robots.txt的用法 优化搜索引擎抓取和索引

通过给网站设置适当的robots.txt对Google和百度seo优化的作用是很明显的.WordPress博客网站也一样. 我们先看看robots.txt是什么,有什么作用? robots.txt是什么? 我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件.robots.txt是搜索引擎公认遵循的一个规范文 档,它告诉Google.百度等搜索引擎哪些网页允许抓取.索引并在搜索结果中显示,哪些网页

比较全的robots.txt介绍

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前段时间笔者手上一个网站因为robots.txt文件失误被写错了几个字符,导致网站迟迟不被收录.当时感觉很不对劲,检查来检查去也没有检查出什么问题,后来登录Google网站管理员中心诊断网站才看到robots文件组织任何搜索引擎蜘蛛访问才发现问题,改过之后,收录正常. robots.txt文件的写法你知道多少呢?对比一下下面的例子: 1.禁止

robots txt 写法-robots.txt 写法 robots.txt 写法

问题描述 robots.txt 写法 robots.txt 写法 User-agent: * Allow:/html/ allow:/index.php$ allow:/index.html$ Disallow:/ 以上只收录html和首页,这样写对吗 解决方案 SEO 必备--robots.txt写法robots.txt的详细写法实例分析Robots.txt写法 解决方案二: 嗯,应该是对的,具体的写法可以去参考百度开发者网站上的,里面有各种详细的配置 解决方案三: $表示匹配后面任意字符.h

Robots.txt写法详解及注意事项

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 之前由写过"Robots"标签与robots.txt区别只是简单的对robots.txt作了下介绍,这里武汉seo闲人为大家详细的介绍下robots.txt写法详解及注意事项. 一.robots.txt是干什么用的 robots.txt写法详解及注意事项 一个网站中有很多个文件,其中包含了后台程序文件.前台模板文件.图片等

robots.txt的详细写法之wordpress博客(一)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 今天回顾检查近期的收录结果,发现搜索引擎还是始终收录3月中发的那篇测试文章,而新的页面,无论原创还是伪原创一概不收录,仔细一检查发现是后台的sitemap插件有设置问题,已经修改好.然后突然发现自己的robots.txt写法似乎存在问题. User-agent: * Disallow:Sitemap: http://www.isongxia.

Robots META标签和robots.txt文件

我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一.robots.txt1.什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文