石頭誋:神奇的robots见证网站的兴衰

  很早就答应给啊彬写一篇文章的,感谢他对我的一个帮助,但是一直到现在也没有写出来,前几天看到卓少问了一个问题关于robots的问题,给大家整理了一下robots的一些情况。robots.txt文件放在网站根目录下,是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。每个网站都应该有一个robots,它告诉搜索引擎我的网站里有哪些东西是不允许抓取的,有哪些页面是欢迎爬行与抓取。

  robots的几种作用:

  1.屏蔽所有的搜索引擎抓取信息,如果你的网站只是你的私密性的网站,不想太多的人知道的话,可以利用robots屏蔽掉所有的搜索引擎,例如你写的私人博客。你就可以把搜索引擎全都屏蔽掉

  User-agent: *

  Disallow: /

  2.如果你只想某一个搜索引擎抓取你的信息,这个时候就可以用robots进行设置,例如:我只想我的网站被百度这个收录,而不想被别的搜索引擎收录。就可以利用robots进行设置

  User-agent: Baiduspider

  Allow:

  User-agent: *

  Disallow: /

  3.可以利用各种通配符对网站进行相对应的调配,例如我不想网站抓取我的所有图片,这个时候就可以运用$来进行设置。一般我们常见的图片的格式是BMP、JPG、GIF、JPEG等格式。这个时候设置就是:

  User-agent: *

  Disallow: /.bmp$

  Disallow: /.jpg$

  Disallow: /.gif$

  Disallow: /.jpeg$

  4.还可以利用*来屏蔽掉相关的URL,有些网站不允许搜索引擎抓取动态地址的时候可以利用这个*通配符来进行匹配设置。一般情况下动态URL的有一个特点就是有“?”这个时候我们就可以利用这个特性来进行匹配的屏蔽:

  User-agent: *

  Disallow: /*?*

  5.如果网站改版了,整个文件夹都没有了的时候,这个情况下就要考虑屏蔽掉整个文件夹。我们可以运用robots来对这整个的文件夹进行屏蔽,例如网站里的ab文件夹因改版全都给删掉了,这个时候就可以这样子设置:

  User-agent: *

  Disallow: /ab/

  6.如果网站里有一个文件夹不想被收录,但是在这个文件夹里面有一个信息是允许被收录。那可以运用robots的allow进行设置。例如我网站里ab文件夹不允许搜索引擎抓取,但是在ab文件夹里面又有一个信息cd是允许被抓取的,这个时候就可以运用robots进行设置:

  User-agent: *

  Disallow: /ab/

  Allow:/ab/cd

  7.可以在robots里定义出网站地图的位置,有利于网站的收录。

  sitemap:<网站地图的位置>

  8.有的时候你会发现我的网站里设置了robots但是还发现其收录了这个URL地址,这个的原因是因为这个搜索引擎的蜘蛛是通过URL爬行到网页的一般 google抓取这样子的URL的时候是不带title与描述的,但是百度抓取这个URL会带上title与描述,所以有很多有人会说我设置了 robots但是没有效果。实际情况是抓取了这个链接而没有收录这个页面内容。

  网站的首页权重是最高的,权重是靠链接传递的,我们设置robots是为了更好的把权重传递给那些需要有很高权重的页面,而有一些页面则是不需要搜索引擎抓取和爬行的。

时间: 2024-10-09 06:55:03

石頭誋:神奇的robots见证网站的兴衰的相关文章

石頭誋:神奇的网站布局提升排名与转化率

一般都会有人讲网站的优化是内容为王,外链为皇.其实这句话也没有错.如果这样子做的话是很好,可以把一个网站排名做上去并且得到很好的流量.但,只有更好没有最好,这个方式绝对也不是最好的.如果加上更精妙的网站布局的话那会使网站排名.流量以及转化率都有一个质的飞越. 1.目标关键词优化法 我前几天写过一篇文章<石頭誋:解读百度快照背后的秘密>告诉了我们如何去看快照里的信息,同样它也有一个关键词的秘密,因为百度会利于分词原理把关键词分成不可再分的词语在快照里会以不同的颜色标明,同时在网站里出现关键词的地

石頭誋:解析百度权重的秘密

我们在搜索引擎上找东西是输入一个关键词然后搜索引擎就会针对这个关键词来给你提供一系列的答案.我们搜索的习惯是百度一下.百度在中国占有的市场份额为73.82%绝大多数的人是有问题百度一下.那如何让你的网站排名靠前呢?百度为什么要让你的网站排名靠前呢?像google有一个值来评定:"PR值".百度也有一个判断的名称:"权重".那什么是权重呢?权重不是一个单一的,它是一个综合性的多项因素之和. 1.百度的相关域 什么是百度相关域?百度相关域就是domain:+域名,也许有

石頭誋:破解网站优化的程序密码

网站是由程序搭建而成的,一个网站的程序好坏直接关系到网站后期的推广.一般在网站制件之前就设计方案,如何更加完善的设计网站,更加完美的布局网站结构. 1.网站代码要标准 在web1.0时代上有许多网站写的不是很标准.在定义网站的时候要注意标准,例如: 这个是一个WWW的标准.现在web2.0的标准已经出来,去年在河南的站长大会上,百度的工程师就曾经对这个问题说明了的.网站代码不要大小写混合(web1.0可以大小写混合),一律用小写,按照最标准的方式展现给搜索引擎,未来搜索引擎会越来越严格,我们写网

石頭誋:解读百度快照背后的秘密

我们做站长的一般对网站的优化是站内+站外.站内的是内容的填充,内链的架设以及网站扁平化的设计与URL地址的优化,站外的一般是外链与友情链接.很少关注百度快照.而用户朋友们呢刚是在百度上搜索一个关键词就开始点击寻找自己想要的东西更加不可能关注百度快照.其实运营一个网站要注意各个细节,网站的快照同样是要注意的,它能给我们反应许多问题. 1.网站是不是被百度降权 正常的网站是隔天的快照,最好的网站是当天的快照.当你的网站快照一直很正常,突然你的快照停止更新了,这个时候要注意了.百度给你信号了.如果不去

修改robots对网站的影响

说实话,做网站做这么长时间,什么样的事情都遇到过,最常见的也是最让站长头痛的无非就是网站降权,网站主要关键字下降,网站快照不更新,外链数量减少等等,这些问题往往就是由于建站初期的准备工作没有做好,导致后期修改网站板块或者其他一些地方所引起的,那么今天笔者就和他家探讨一下robots文件的修改对网站的影响. 网站robots文件的作用 robots文件对于新手站长来说可能不是很熟悉,这也导致了很多新站排名不好或者收录不好,robots文件说白了就是针对搜索引擎的指示文件,告诉搜索引擎那些内容可以收

java-漏洞扫描:robots文件网站结构信息泄漏

问题描述 漏洞扫描:robots文件网站结构信息泄漏 这个应该怎么解决呢?下面是网站上打开的robots.txt文件 新手上路,多谢关照!!! 解决方案 这个本来只是让爬虫知道哪里你不能爬,但是同样也给出了robots.txt所在目录下的目录结构,这些路径大多数都是存放静态资源,谁访问都可以,但是有时候这些目录下可能你是用了各种插件之类的,然后就可能存在可执行文件,各种可执行文件都有可能存在漏洞让人攻击. 很多网站都会会放这个,而且都能访问,你可以去看看百度的,淘宝的,都可以直接看,但其实大多数

Robots对网站排名影响

我网站中间会掉排名,我分析了一下了原因,可能是存在robots.txt这个文件上面,因为自从上次扫黄事件开始,我网站开始也是打不开的,在我对IDC强压之下,我们网站服务器换到了上海电信这边来,但由于IDC事件过多,所以他把我的网站开通了主机,但内容让我上传,后来,我就把自己电脑上面的文件传到新开的主机里面去了,因为我每次都会备份数据库及重要文件到本地来的,所以感觉无所谓,没想到这一次的无所谓,也造成了我后面网站的排名下掉及蜘蛛们次数来的非常少.我本地少了好几个文件,谷歌管理工具里面的验证文件.R

一个神奇的PS侦测网站

  无论是国家地理杂志,还是生态摄影的比赛,都曾经出现过因为PS而被取消资格的个案.但除了分析相片的瑕疪,还有其他更准确和客观的方法评定相片有否进行PS吗?或者你可以试试izitru. izitru是一个免费.免安装的网上程式,可以检查相片是否有进行过PS.原理是透过devise signature analysis, JPEG structure analysis, double JPEG detection, JPEG coefficient analysis, sensor pattern

“推出”神奇的网站:推优网助你目录提交“三”丰收

中介交易 SEO诊断 淘宝客 云主机 技术大厅 "TTUU.com"站长网旗下一个神奇的目录提交网站,之所以用"神奇"二字来形容,是因本身具价值要远超传统的目录提交网站.A5作为"站长必上的网站"平台,始终秉承一切为站长切身利益出发,做站长最放心.贴心.心称心的站长网.毫不夸张的说,只要在混迹在这里的站长,没有几个没从中得到过收益的.而近期更是推出"推优网"这一分类目录,408个分类集协站长走向优化快车道.最为站长称叹的更是提