如何巧妙利用robots.txt设置的玄机

  什么是robots.txt?

  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

  robtots.txt必须放置在我这根目录之下,而且,文件名必须全部小写,这两点是做robots.txt优化设置必须注意的。

  robots.txt在SEO中起作用

  搜索引擎是遵循robots.txt这个搜索蜘蛛遵循协议的。因此,如果我们网站上的某些内容不希望搜索引擎爬取收录,那么,我们就可以利用这个robots.txt来设置一番,设置搜索引擎蜘蛛不要爬取。语法如下:

  User-agent: *

  Disallow: /禁止抓取的路径/

  以上这个语法是禁止所有搜索引擎蜘蛛,如果你指针对百度或者谷歌,那么将User-agent: baiduspider即可。注释:google蜘蛛:googlebot 百度蜘蛛:baiduspider。

  robots.txt的一些使用小技巧

  网站为什么要使用伪静态?因为url地址是类似静态的,所以,像织梦那样的动态评论,对排名起不了作用,而搜索引擎蜘蛛一旦爬取收录发现是毫无价值的信息之后,是不是的来段收录暴涨,收录大跌的情景,相信站长对这类情况就显得比较抓狂了。那么,Disallow: /*?* 禁止访问网站中所有的动态页面,可以帮你很好的解决这类难题了。

  当然,网站的后台文件是不希望暴露在公众视野的,故因此可利用robots.txt中的Disallow: /后台登陆路径/很好的解决这一问题。当然,如果是图片类的站点,希望防止盗链减轻服务器压力的话,那么Disallow: .jpg$就可以很好的解决这一个难题了。

  至于网站地图的重要性,相信大伙儿都清楚的指导,那么,搜索引擎蜘蛛爬到一个网站的时候,最先爬取的robots.txt这个协议,想让网站收录更多吗?那么,在Sitemap: 网站地图url,就是个不错的应用技巧了。

  本文首发A5,转载时请标明出处。更多关于robots.txt设置的问题,可在http://www.sjqtq118.com了解更多!

时间: 2024-10-22 01:19:17

如何巧妙利用robots.txt设置的玄机的相关文章

利用Robots.txt如何优化WordPress网站

很多建站新手对robots.txt文件的重要作用不是很清楚,利用这篇文章普及一下WordPress站点robots.txt文件编写知识. Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. 搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以

教你robots.txt设置方法技巧

在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文件使用不是特别了解,仅仅知道Disallow是禁止,allow是允许,以及一些常用的搜索引擎的访问禁止写法,对于在复杂的一些不知道如何去写,其实本人开始也对于robots不知道如何着手去写,但是随着做

优化Robots.txt:扬己之长避己之短

Robots.txt文件是一个简单的TXT文本,但是专注网站建设及网站优化的Seoer们都清楚它的重要性,它的存在可以将不希望搜索引擎抓取的页面屏蔽起来,也可以像是一张地图一样为蜘蛛引路指航.当蜘蛛爬行到一个站点时,首先访问的便是是否存在Robots.txt文件,然后按照内容中的指引来进行索引访问,如果文件不存在的话那么就按照页面中的链接进行顺序的访问.因此我们可以利用它来屏蔽一些不需要搜索引擎要索引的目录,或者将网站地图在Robots.txt中描述引导蜘蛛爬行,这样对于网站安全性上或者节省服务

robots.txt的详细写法之wordpress博客(一)

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 今天回顾检查近期的收录结果,发现搜索引擎还是始终收录3月中发的那篇测试文章,而新的页面,无论原创还是伪原创一概不收录,仔细一检查发现是后台的sitemap插件有设置问题,已经修改好.然后突然发现自己的robots.txt写法似乎存在问题. User-agent: * Disallow:Sitemap: http://www.isongxia.

robots.txt使用教程

Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面.最后,robots.txt必须放置在一个站点的根目录下. 大家可以参考一下谷歌.百度和腾讯的robots写法: http://www.google.com/robots.txt http://www.bai

了解robots.txt的用法 优化搜索引擎抓取和索引

通过给网站设置适当的robots.txt对Google和百度seo优化的作用是很明显的.WordPress博客网站也一样. 我们先看看robots.txt是什么,有什么作用? robots.txt是什么? 我们都知道txt后缀的文件是纯文本文档,robots是机器人的意思,所以顾名思义,robots.txt文件也就是给搜索引擎蜘蛛这个机器人看 的纯文本文件.robots.txt是搜索引擎公认遵循的一个规范文 档,它告诉Google.百度等搜索引擎哪些网页允许抓取.索引并在搜索结果中显示,哪些网页

网站优化:robots.txt使用教程

首先,我来介绍一下什么是robots.txt:robots.txt是搜索引擎中访问网站的时候要查 看的第一个文件.Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的.当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是 否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有 被口令保护的页面.最后,robots.txt必须放置在一个站点的根目录下. 大家可以参考一下谷歌.百度和腾讯的

Robots.txt的写法和利用百度站长平台工具自动生成

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,有效的提升更多的页面被收录. 前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可

两个方法检查网站robots.txt是否合理

看了很多网站优化的文章,都很少提及如何检查网站的robots.txt,大多就说明一下robots.txt要设置好.对于高手来讲,这是小菜一碟,可以轻松判断robots.txt是否合理,但对于一些菜鸟来讲,根本无法判断自己网站的robots.txt是否合理,一个错误的robots.txt文件会使搜索引擎机器无法挖掘你的网站,其结果是你的新内容无法列举在搜索引擎的索引中.这对网站站长来说是一个巨大的损坏.如果你做错了什么并重新编辑 robots.txt文件的话,它需要两个星期才能看到效果.因此一个正