robots.txt和Robots META标签
平文胜 2003-10-29
我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。
对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
一、 robots.txt
1、 什么是robots.txt? robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
网站 URL
相应的 robots.txt的 URL
http://www.w3.org/
http://www.w3.org/robots.txt
http://www.w3.org:80/
http://www.w3.org:80/robots.txt
http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt
http://w3.org/
http://w3.org/robots.txt
2、 robots.txt的语法
“robots.txt“文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
“<field>:<optionalspace><value><optionalspace>“。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字,在“robots.txt“文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在“robots.txt“文件中, “User-agent:*“这样的记录只能有一条。
Disallow :
该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如“Disallow: /help“对/help.phpl 和/help/index.phpl都不允许搜索引擎访问,而“Disallow: /help/“则允许robot访问/help.phpl,而不能访问/help/index.phpl。
搜索引擎蜘蛛程序1-搜索引擎技术
时间: 2024-12-04 16:52:46
搜索引擎蜘蛛程序1-搜索引擎技术的相关文章
搜索引擎蜘蛛算法与蜘蛛程序构架-搜索引擎技术
一.网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来. 对于搜索引擎来说,要抓取互联网上所
搜索引擎蜘蛛程序-搜索引擎技术
robots.txt和Robots META标签 我们知道,搜索引擎都有自己的"搜索机器人"(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库. 对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开.为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签. 一. robots.txt1. 什么是robots.txt
搜索引擎蜘蛛程序3-搜索引擎技术
二. Robots META标签1.什么是Robots META标签Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面.和其他的META标签(如使用的语言.页面的描述.关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容.具体的形式类似(见黑体部分):<html><head><title>
搜索引擎蜘蛛程序2-搜索引擎技术
4. robots.txt举例下面是一些著名站点的robots.txt:http://www.cnn.com/robots.txthttp://www.google.com/robots.txthttp://www.ibm.com/robots.txthttp://www.sun.com/robots.txt http://www.eachnet.com/robots.txt5. 常见robots.txt错误l 颠倒了顺序:错误写成User-agent: *Disallow: GoogleBo
谈从iis日志中探寻搜索引擎蜘蛛活动痕迹
在站点的优化过程中个并不是说所有的站点问题都可以直接从站长工具上得到信息,往往站长工具上得到的信息都是在站点出现问题后才能察觉到.作为一名SEOer,我们更需要学会站点的隐性信息.例如,这几天做的外链效果怎样?我们的内容那些方面更加容易受到搜索引擎蜘蛛的喜爱?搜索引擎蜘蛛对于我们站点的爬行积极度如何?等等,这些都是隐藏在站点内容部的一些关键信息.这些信息通过站长工具我们很难分析.而这些信息恰恰可以从我们的站点IIS日志上找到答案. 一:为何IIS日志在分析站点隐性信息中如此重要 1:借由该日记记
搜索引擎蜘蛛是如何抓取链接的
摘要: 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧. 传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行.也就是比如百度
搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接
中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此.当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘.本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧. 传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行.也就是比如百度蜘蛛找到一个链接,顺着这
世界各大搜索引擎的蜘蛛名称列表-搜索引擎技术
本文记录了全世界比较出名的Robots.txt 列表需要设置的搜索蜘蛛.如何设置那个目录不想被搜索引擎收录的可参照下去设置. 当然也必须从Robots.txt 去设置 下列为比较出名的搜索引擎蜘蛛名称: Google的蜘蛛: Googlebot百度的蜘蛛:baiduspiderYahoo的蜘蛛:Yahoo SlurpMSN的蜘蛛:MsnbotAltavista的蜘蛛:ScooterLycos的蜘蛛: Lycos_Spider_(T-Rex) Alltheweb的蜘蛛: FAST-WebCrawl
搜索引擎原创识别算法的技术细则
前段时间参加武汉的一个seo圈子的小聚会,闲聊嗨皮之余,连同几个百度的工程师一起,具体的分析了下有关百度原创识别算法,在技术方面的一些细节,觉得蛮有意思的,就写出来大家一起沟通下,求拍矮个芝麻砖. 搜索引擎为什么如此重视原创? 早期的搜索引擎算法中,其实并没有原创这一项的判断.但是随着后来采集,转载的大规范泛滥,导致了用户很难搜索到自己真正想要的内容.大量的重复内容充斥在搜索结果中,让人眼花缭乱. 首先,由于后期采集技术的兴起,大量的转载内容充斥网络.转载,必然会对原创产生一定的损伤,比如去掉图