搜索引擎蜘蛛程序-搜索引擎技术

robots.txt和Robots META标签 
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
 
一、 robots.txt
1、 什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
 当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
 robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
 网站 URL
相应的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt
2、 robots.txt的语法
“robots.txt“文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>“。
 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在“robots.txt“文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt“文件中, “User-agent:*“这样的记录只能有一条。
 
Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /help“对/help.phpl 和/help/index.phpl都不允许搜索引擎访问,而“Disallow: /help/“则允许robot访问/help.phpl,而不能访问/help/index.phpl。

时间: 2024-08-02 02:50:05

搜索引擎蜘蛛程序-搜索引擎技术的相关文章

搜索引擎蜘蛛程序1-搜索引擎技术

robots.txt和Robots META标签 平文胜 2003-10-29 我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一. robots.txt1

搜索引擎蜘蛛程序3-搜索引擎技术

 二. Robots META标签1.什么是Robots META标签Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面.和其他的META标签(如使用的语言.页面的描述.关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容.具体的形式类似(见黑体部分):<html><head><title>

搜索引擎蜘蛛程序2-搜索引擎技术

 4. robots.txt举例下面是一些著名站点的robots.txt:http://www.cnn.com/robots.txthttp://www.google.com/robots.txthttp://www.ibm.com/robots.txthttp://www.sun.com/robots.txt http://www.eachnet.com/robots.txt5. 常见robots.txt错误l 颠倒了顺序:错误写成User-agent: *Disallow: GoogleBo

深入剖析搜索引擎蜘蛛工作对SEO的提升

搜索引擎蜘蛛是搜索引擎自身的一个程序,它的作用是对网站的网页进行访问,抓取网页的文字.图片等信息,建立一个数据库,反馈给搜索引擎,当用户搜索的时候,搜索引擎就会把收集到的信息过滤,通过复杂的排序算法将它认为对用户最有用的信息呈现出来.深入分析网站的SEO表现的时候,一般我们就会考虑搜索引擎蜘蛛的抓取质量,而其中能够帮我们优化网站可能会涉及到下面的几个蜘蛛抓取相关的概念: 1.爬取率:既定时间内网站被蜘蛛获取的页面数量. 2.爬取频率:搜索引擎多久对网站或单个网页发起一次新的爬行. 3.爬取深度:

简谈搜索引擎工作流程-搜索引擎技术

     互联网是一个宝库,搜索引擎是打开宝库的一把钥匙.然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足.国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望.作为互联网的第二大服务,这种状况应该改变. 互联网的迅速发展,导致了网上信息的爆炸性增长.全球目前的网页超过20亿,每天新增加730万网页.要在如此浩瀚的信息海洋里寻找信息,就像"大海捞针"一样困难.搜索引擎正是为了解决这个"迷航"问题而出现的技术. 搜索引擎的工作包括如下三个过程

搜索引擎蜘蛛原理深入剖析

  经常与站长打交道,定期组织A5杂谈站长录活动,对于搜索引擎蜘蛛工作原理也有一定了解,再此总结个人的一些心得,没有涉及到任何的技术,重在思维.认真读的朋友,一定会有收获. 搜索引擎好比总司令,蜘蛛就是他的手下.蜘蛛也分等级,我们就简单分成3个等级,初级蜘蛛(普通士兵),中级蜘蛛(普通军官),高级蜘蛛(高级军官). 我们一直认为蜘蛛很神秘,其实很简单,其原理是.它就相当一个我们有经常用到的采集器,能抓取到你网站的页面,将你网站页面的内容放入自己的数据库,将采集到的结果与数据库原有的信息一一进行匹

从五个方面下手 让搜索引擎蜘蛛恋上你的站点

假如搜索引擎无法很好的游览到我们站点的内容,那么我们即使在站点投入多大的精力也都是竹篮打水一场空.为了避免该事情发生最好的解决之道就是我们能够很完整的去规划好我们整个站点的结构. 首先,我们在开始构建我们站点之前,我们都是需要先去好好的分析搜索引擎爬行的模式与规律,因为我们都知清楚搜索引擎是借助"蜘蛛"爬行我们站点源代码进行抓取链接,从而很好搜集我们的站点页面,从而入库到搜索引擎数据库,这就是搜索引擎简要的收录过程,同时搜索引擎会根据一定的算法,如页面的速度.社会信号等等进行权重的分配

搜索引擎蜘蛛为什么会不访问你的网站

许多站长都有查看网站日志的习惯,这么做的主要目的就是为了分析蜘蛛爬行网站的情况,当然其中多数站长也只是简单的了解一下当天蜘蛛爬行的次数,这一点就足够发现问题了.有时候,我们会觉得自己的网站已经相当完美了,而正常优化过程中,蜘蛛却对此不感冒,让人很是着急.   了解原理就很容易理解,搜索引擎借助蜘蛛在互联网这张大网中搜寻"猎物",它唯一所能依据的线索就是链接了,找到新的链接后,根据复杂的算法最终对网站进行排名,储存在数据库中.很多网站可能会因为网站结构混乱失去蜘蛛到访的机会,然而蜘蛛不访

站长应该如何搞好和搜索引擎蜘蛛的关系

蜘蛛对于普通人来讲或许一种比较讨厌的动物,它可以把你的房子弄得全是网,一不小心说不定还会网住你的脸.可是对我们站长来说蜘蛛却是我们网上赚钱的衣食父母.当然此蜘蛛非彼蜘蛛,我们谈得这蜘蛛是搜索引擎专用的一种爬行互联网数据的程序.大家都知道搜索引擎拥有庞大数据库,而收集这些资料的工具就是搜索引擎蜘蛛. 蜘蛛的特性就是善于爬行,而且是无边无际环环相扣的去爬.我们站长总是在谈如何更好的设计网站利于蜘蛛爬行收录,其实我们在了解了蜘蛛的特性以后就知道蜘蛛爬行是需要有人牵线的.这也就是引擎蜘蛛和真实蜘蛛的不同