为网站的Web Robot 设计路标

web|设计

Internet越来越酷,WWW的知名度如日中天。在Internet上发布公司信息、进行电子商 务已经从时髦演化成时尚。作为一个Web Master,你可能对HTML、Javascript、Java、 ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?

 Internet上的流浪汉--- Web Robot

  有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他们有过任何联系。其实这正是Web Robot的功劳。Web Robot其实是一些程序,它可以穿越大量Internet网址的超文本结构,递归地检索网络站点所有的内容。这些程序有时被叫“蜘蛛(Spider)”,“网上流浪汉(Web Wanderer)”,“网络蠕虫(web worms)”或Web crawler。一些Internet网上知名的搜索引擎站点(Search Engines)都有专门的Web Robot程序来完成信息的采集,例如Lycos,Webcrawler,Altavista等,以 及中文搜索引擎站点例如北极星,网易,GOYOYO等。

  Web Robot就象一个不速之客,不管你是否在意,它都会忠于自己主人的职责,任劳任怨、不知疲倦地奔波于万维网的空间,当然也会光临你的主页,检索主页内容并生 成它所需要的记录格式。或许有的主页内容你乐于世人皆知,但有的内容你却不愿被洞察、索引。难道你就只能任其“横行”于自己主页空间,能否指挥和控制Web Robot的行踪呢?答案当然是肯定的。只要你阅读了本篇的下文,就可以象一个交通 警察一样,布置下一个个路标,告诉Web Robot应该怎么去检索你的主页,哪些可以 检索,哪些不可以访问。

  其实Web Robot能听懂你的话

  不要以为Web Robot是毫无组织,毫无管束地乱跑。很多Web Robot软件给网络站点的 管理员或网页内容制作者提供了两种方法来限制Web Robot的行踪:

  1、Robots Exclusion Protocol 协议

  网络站点的管理员可以在站点上建立一个专门格式的文件,来指出站点上的哪一部分 可以被robot访问, 这个文件放在站点的根目录下,即 http://.../robots.txt

  2、Robots META tag

  一个网页作者可以使用专门的HTML META tag ,来指出某一个网页是否可以被索 引、分析或链接。

  这些方法适合于大多数的Web Robot,至于是否在软件中实施了这些方法,还依赖于 Robot的开发者,并非可以保证对任何Robot都灵验。如果你迫切需要保护自己内容, 则应考虑采用诸如增加密码等其他保护方法。

  使用Robots Exclusion Protocol协议

  当Robot访问一个 Web 站点时,比如http://www.sti.net.cn/,它先去检查文件http: //www.sti.net.cn/robots.txt。如果这个文件存在,它便会按照这样的记录格式去分析:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

  以确定它是否应该检索站点的文件。这些记录是专门给Web Robot看的,一般的浏览 者大概永远不会看到这个文件,所以千万不要异想天开地在里面加入形似<img src=*> 类的HTML语句或是“How do you do? where are you from?”之类假情假意的问候语。

  在一个站点上只能有一个 "/robots.txt" 文件,而且文件名的每个字母要求全部是小写。在Robot的记录格式中每一个单独的"Disallow" 行表示你不希望Robot访问的URL, 每个URL必须单独占一行,不能出现 "Disallow: /cgi-bin/ /tmp/"这样的病句。同时在一个 记录中不能出现空行,这是因为空行是多个记录分割的标志。

  User-agent行指出的是Robot或其他代理的名称。在User-agent行,'*' 表示一个特殊的含义---所有的robot。

  下面是几个robot.txt的例子:

  在整个服务器上拒绝所有的robots:

User-agent: *
Disallow: /

允许所有的robots访问整个站点:
User-agent: *
Disallow:
或者产生一个空的 "/robots.txt" 文件。

服务器的部分内容允许所有的robot访问
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

拒绝某一个专门的robot:
User-agent: BadBot
Disallow: /

只允许某一个robot光顾:
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

最后我们给出 http://www.w3.org/站点上的robots.txt:
# For use by search.w3.org
User-agent: W3Crobot/1
Disallow:
User-agent: *
Disallow: /Member/ # This is restricted to W3C Members only
Disallow: /member/ # This is restricted to W3C Members only
Disallow: /team/ # This is restricted to W3C Team only
Disallow: /TandS/Member # This is restricted to W3C Members only
Disallow: /TandS/Team # This is restricted to W3C Team only
Disallow: /Project
Disallow: /Systems
Disallow: /Web
Disallow: /Team

  使用Robots META tag方式

  Robots META tag 允许HTML网页作者指出某一页是否可以被索引,或是否可以用来查 找更多的链接文件。目前只有部分robot实施了这一功能。

  Robots META tag的格式为:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
象其他的META tag一样,它应该放在HTML文件的HEAD区:
<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="This page ....">

时间: 2024-11-05 06:25:33

为网站的Web Robot 设计路标的相关文章

在你的主页中为Web Robot设计路标

web|设计 Internet越来越酷,WWW的知名度如日中天.在Internet上发布公司信息.进行电子商 务已经从时髦演化成时尚.作为一个Web Master,你可能对HTML.Javascript.Java. ActiveX了如指掌,但你是否知道什么是Web Robot?你是否知道Web Robot和你所设 计的主页有什么关系?  Internet上的流浪汉--- Web Robot  有时你会莫名其妙地发现你的主页的内容在一个搜索引擎中被索引,即使你从未与他 们有过任何联系.其实这正是W

WEB设计技巧:Web开发中经常使用的网站和Web App

文章描述:Web用户体验师Jake Rocheleau撰写了一篇文章分享他在Web开发中经常使用的网站和Web App,其中包含各类字体库.代码库.插件库.配色方案和测试工具.他同时指出,Web开发环境将慢慢转向云端. Web用户体验师Jake Rocheleau撰写了一篇文章分享他在Web开发中经常使用的网站和Web App,其中包含各类字体库.代码库.插件库.配色方案和测试工具.他同时指出,Web开发环境将慢慢转向云端. CodeVisually是一个开源项目.在它的分类目录下有各种插件.

web开发设计必备 在线web工具网站和应用

  开发设计必备 在线web工具网站和应用-web前端开发必备软件"> 大家可能还记得在过去的文章我们我们曾经介绍我们收集的前端开发人员必备的工具,脚本和资源,在今天的这篇文章中,我们将继续推荐给大家一组我们精挑细选的web开发设计必备的在线工具应用.相信会在web开发和设计的过程中给你带来方便和快捷! 前端开发相关 jsfiddle jsfiddle是老牌的在线调试和分享代码的网站,它可以帮助你在线调试javascript/css/html代码, 并且方便的发布到社区,论坛或者社交媒体上

Web开发/设计人员应当知道的15个网站_相关技巧

ColorCombos 开发/设计人员应当知道的15个网站_相关技巧-web前端开发技巧"> 在进行网站设计的时候,开始步骤的其中一项(也是最重要)的内容是选择出一个配色方案. Color Combos让你可以浏览上千个不同的颜色组合,以便从中为你即将开始的设计汲取灵感.其配色方案可按颜色浏览. LIpsum 风靡之至的Lorem Ipsum文字,其大名谁人不知?哪个不晓?(译注:查了才知道,这是指一篇用于测试排版设计的拉丁文文章,从15世纪开始就被广泛使用,文章因以Lorem Ipsum

网站页面分析:关于WEB标签设计二三事

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在最近的用户搜索日志中发现,很多用户不去使用我们设计的标签,而是依靠外部搜索引擎输入相关内容,搜索匹配以后再回到我们页面.是我们的标签没有被用户认知还是用户没有了解标签传达的意义?这个问题让我不得不重新思考标签在网站中的作用. 一.为何要关心Web标签? 标签是简化网站的一个重要办法,它代表网站的很多信息,目的是引导用户快速无障碍的浏览网站.例如"关于我们"就是一种标签,代表一大块内容,包括公司信息.地址.联系电话和传真等,用户看见&qu

关于儿童网站的web注册表单设计体验

儿童网站是一个特殊的网站类型,设计儿童网站是具有挑战的,因为你要了解儿童的心理活动与习惯.当然一般来说设计师都是成年人.所以本文我们将讨论下怎样设计儿童网站web注册页面(以儿童为中心做体验设计). 我们先来看看儿童的访问网站的一些特点,首先儿童的价值观与认知能力都比较差,所以他们比较厌烦抽象的数字体验,比较喜欢抽象的图片表达.而且作为儿童对于未知比较有好奇心,因此有创意的http://www.aliyun.com/zixun/aggregation/8936.html">视觉效果更容易吸

Web App设计浅谈

HTML5技术的强势发展,为互联网带来的最大改变就是: web从"已死"的预言中回过头来给Native app一记沉重的回马枪,web app成为举世瞩目的明星开始走在各大公司研发的时刻表中.Google .微软.苹果三大巨头紧锣密鼓地在web app的研发产品领域圈地设岗,并试图建立以自己为中心的"云"服务平台,企图在web app时代到来的时候充当霸主. 本文将围绕web app的设计,与大家讨论几点设计技巧. 什么是web app? Web app是一种通过网

web开发设计人员不可不用的在线web工具和应用

大家可能还记得在过去的文章我们我们曾经介绍我们收集的前端开发人员必备的工具,脚本和资源,在今天的这篇文章中,我们将继续推荐给大家一组我们精挑细选的web开发设计必备的在线工具应用.相信会在web开发和设计的过程中给你带来方便和快捷! 前端开发相关 jsfiddle jsfiddle是老牌的在线调试和分享代码的网站,它可以帮助你在线调试javascript/css/html代码, 并且方便的发布到社区,论坛或者社交媒体上与朋友们分享或者提问.整合了很多的不同的类库供大家选择. 类似的工具还有jsb

Web 页面设计的色彩理论及应用

web|设计|页面 我们在设计的运用上重点在于创造一个没有过的形态,把形体润饰得协调美观,它受社会的制约,重视地方特征.为了在设计中有效的使用色彩我们必须掌握一些色彩的基础理论知识,结合自己的实际经验,来营造我们的作品.同一色彩有数之不尽的应用方法,并没有非常机械的色彩调和的法则,在一定的原则下靠我们自己的眼睛和审美观点来做出选择. 色彩构成(Interaction of color),可以理解为色彩的作用,是在色彩科学体系的基础上,研究符合人们知觉和心理原则的配色.配色有三类要素:光学要素(明