搜索引擎Yahoo的分类体系及性能评价

目前很多的搜索引擎都是将人工编制的等级式主题目录和计算机检索软件提供的关键词等检索手段结合起来,完成网络信息资源的组织任务。Yahoo就是这种等级式主题指南类搜索引擎的典型代表。

Yahoo的魅力,就在于它的可浏览式等级主题索引。按照主题建立分类索引,提供全面的分类体系结构,并结合高质量的检索软件,Yahoo成功地建立起了一套独特的信息管理和组织机制,使得对网络信息的全面检索变成现实。现对Yahoo的类目体系、分类原理、检索方式、性能评价等作进一步的探讨。

一、类目体系

Yahoo由14个基本大类组成,包括Art&Humanities(艺术与人文)、Business&Economy(商业与经济)、Computers&Internet(电脑与网际网路/网络)、Education(教育)、Entertainment(娱乐)、Government(政府)、Health(健康与医药)、News&Media(新闻与媒体)、Recreation&Sports(休闲与运动)、Reference(参考资料)、Regional(国家与地区)、Science(科学)、SocialScience(社会科学)、Society&Culture(社会与文化)。

根据其拥有的信息或网站的多寡及知识组织的需要程度,每一个基本类目下细分不同层次的次类目或子类目,愈往下的子类目中的网站其主题愈特定。它建立了一个由类目、子类目等构成的可供浏览的相当详尽的目录等级结构。其类目设计合理,结构完整、全面,类目等级层次鲜明,各级详略、宽泛程度不一,从而为网上丰富的信息资源的归类,尤其是确切归类提供了基础。

二、分类原理

InternetScoutProject的分类专家AimeeGlassel认为,“印度著名分类专家和图书馆专家阮岗纳赞的冒号分类法理论体系与Yahoo网络信息资源的主体目录之间存在着密切的联系”,从而揭示了Yahoo应用分面分析方 法进行网络信息资源的分类实质。具体说来,可从以下几点来深入地理解Yahoo的分面分类原理或基本过程。

1. 采用宽泛的主题领域建立分类索引

为了使其分类体系既具有无限的容纳性,又具有相当的专指性,Yahoo采用较为宽泛的主题领域,通过分析兼综合的方法建立较为完整的分类索引。这与分面分类的思想不谋而合,因为将知识分为宽泛的类目即分面,多方面地反映主题内容以避免列举式类表的线性单向式的结构正是阮岗纳赞冒号分类法的主要原则所在。

2. 根据上下文进行信息内容的组合

从Yahoo的分类结构外表看,也许会认为它与叙词表很相近,因为Yahoo也是使用词汇而非符号来组成相应的概念词串。但是,从组合类目的能力看,它远远比普通的叙词表复杂得多。通过分析Web页面的内容特征,得 到由Yahoo分类体系结构中某些类目词组成的概念词串或标引词串,将其放入相应的类目层次中。在Yahoo的概念词串或检索词串中包含的独立的词汇都含有自身的名字,但是一旦与其它词组合,则产生了一个上下文关系,拥有了一深层次的涵义。从这一点上说来,与分面分类法也是极为相似的。

3.利用冒号标记信息内容

现以“20世纪60年代印度在肺结核治疗方面的研究”作为待分类标引的信息内容来具体考察两者的标记制度:

在阮岗纳赞的冒号分类法中,该内容标引为:L,45;421;6;253;f.44‘N5

用词代替相应的符号,则为:

Medicine,Lungs;Tuberculosis:Treatment;X-ray:Research.India‘1950

如果将分面公式中的相应标点符号用冒号代替,由此所形成的字符串形式就是在Yahoo中用于描述信息内容的 方法,相应地表示为:

Health:DiseasesandConditions:Tuberculosis

可见两者在信息描述上何其相似!Yahoo利用冒号作为统一的分隔符进行了信息内容的组织和描述,既保留了 原先的分面标记的特点,又在一定程度上简化了标记制度,从而极大地提高了信息分类标引的效率。

4. 提供不同的分类路径入口

“虚拟的信息集合”是Yahoo的一大优点,体现在其拥有的概念模式和引用次序(即分面排列次序)的灵活性 上。在传统的图书馆中,一本书只能放在书架的某一固定位置上。但在数字化的世界里,电子信息资源却不用再限制在唯一的物理位置上。我们可以将某一信息源分到类目结构的不同位置上。通过将分面分析方法应用到网络信息资源的组织中,Yahoo能够为某一信息源在其巨大的分类等级结构中提供不同的路径分支入口,这样就使其能够从不同的路径,为检索相同内容的不同用户提供服务,从而完成查询。

例如,现欲查找美国Wisconsin-Madison大学所在的网页,Yahoo就能提供如下几种分类或检索路径:

(1)若从Regional:类目入手,则相应的分类路径为:Regional:U.S.States:Wisconsin:Cities:Madison:Education:CollegesandUniversities:
UniversityofWisconsin-Madison。

(2)若从Education类目入手,开始的几级路径为:Education:HigherEducation:CollegesandUniversities,在CollegesandUniversities目录下选择地理区域的子类目“UnitedStates@”后,可以看到,又返回到Regional目录下,之后就与上述路径相同了。其中的奥妙就在于符号“@”的运用,它提供类似于相关参照(crossreference)的作用,能够指引用户由某一子类目进入Yahoo的浏览性等级结构的其它分支中。

三、检索方式

Yahoo能够提供简单检索和细节检索。前者主要检索其分类结构中的一级目录,后者可使用关键词构成布尔逻辑式进行检索,其检索软件主要由OpenText公司提供。两者的结合堪称珠联壁合:一个提供强大的高质量的主题指南目录,另一个则提供高水平的检索工具。而且,Yahoo在检索时,也不光检索自身的主题目录,同时也会相应地检索OpenText公司提供的收有100万Web文件的OpenText数据库。

诚然,Yahoo在检索方式上上存在着一些缺陷,如:只能进行关键词检索,并且只支持布尔算符and和or,未提供near等,但通过在其主页的末尾提供了其它引擎如ALTAVISTA、LYCOS等的超链接,指引用户进入这些地方去搜索,从而弥补了Yahoo的若干缺陷。因此,从总体上说来,Yahoo仍然是WWW上最流行的查询工具之一。

四、性能评价

作为主题指南类搜索引擎的典范,Yahoo具有以下优点:

1. 主题目录与检索软件的完美结合

采用分面分析的方法,由信息管理专家编制主题目录,反映了人们在选择和组织信息时的知识和智慧,提高了目录编制的质量。同时,按照主题目录以人工为主对提交的网页进行筛选、归类和组织,也能不断克服单纯由搜索软件自动完成分类的缺陷,增强分类的条理性。嵌入相应的检索软件或工具,并与之相集成,提供高质、高效的检索服务,从而加快了系统的反映速度,提高了检索的准确性,使得检索结果更接近用户的信息需求。

2. 信息检索难度的降低

Yahoo的数据库按照14个大类(各大类下又包含数量不等的小类)组织,其分类体系非常详尽,因此是进行宽泛主题检索的良好起点,特别是对于那些新用户和模糊需求的用户而言,选择浏览可逐级展开的主题索引比构造检索式要自然得多。并且,在用户所在的类目下,显示了该级别的类目包含的条目数,如果用户认为数量过多,还可在此范围内使用关键词检索。Yahoo的目录特征和利用上下文的服务使得能够实现快速和容易的检索,从而在一定程度上降低了互联网信息检索的难度,提高了系统的用户友好性。

3. 检索结果的分类选择

Yahoo由分类路径入手,最终将检索结构分成类目输出,从而将极大地推动信息的选择。它还对结果列表中的相应内容进行必要加工,加上一些描述的词组或句子,方便用户浏览并选择:如:〔*〕或〔cool〕标记表明该结果项在内容和版面设计都优于其他项;〔new〕表明是最近3日内收录的最新内容;以及上述提及过的以“@”表示相关参照,以括号里的数字表示收录的文件数量等等。另外,Yahoo增加了结果显示的类型,可以以相关网站、相关网页、新闻等形式输出相应的检索结果。总而言之,为了更好地实现为用户服务的目的,Yahoo正不断开发新的途径和方法用以改善信息检索服务。

在总结Yahoo所具有的优势的同时,也应注意它的缺陷,这些缺陷往往也正是主题指南类搜索引擎的共同弊病所在:

1、由于互联网信息的迅猛增长,使得采集信息的速度远远比不上网络资源的增长速度,更勿论编制主题目录的速度了。这就造成了所建立的数据库规模较小,且在某些类目下收集的文件数量有限等缺点,使得用户经常“乘兴而来,败兴而归”,满足不了相应的信息需求。

2、简单检索表中检索词之间缺省设置为“.or.”,且内含的自动截词功能,使得在检索中往往会出现许多不相关的文件,导致查准率降低。

3、为了适应不同用户的查询或检索需求,Yahoo对相同的信息内容往往能提供不同的路径入口,并以符号“@”建立相应的参照。这一方面加大了分类工作的难度,另一方面也使得其分类的一致性难以得到确切保障,所以,经常出现从某一路径入手,却无法查到Yahoo中所包含的信息内容的现象。

4、待收录的网页或其它信息内容的复杂度的增加也在无形之中加大了确切分类的难度,如与ActiveX技术相关的文献就很难在Yahoo中确切归类。

5、为了编制高质量的主题目录并跟上网络资源发展的速度,必须投入相当大的人力、物力和财力,且对从事该项工作的人员的素质要求也日渐提高。否则,将无法很好地保证其主题目录的质量,也就从根本上无法提供优质的服务。

五、启示和建议

Yahoo最关键也是最成功之处就在于它为搜索引擎,尤其是主题指南类的搜索引擎的设计和开发树立了“摸板”。借鉴Yahoo先进的搜索引擎经验,进一步完善网络信息资源尤其是中文信息资源的组织和管理,是历史赋予我们的责任。现就建立网上中文信息资源的高质、高效的“导航器”,提出以下几点建议:

1、Yahoo在数字化信息的组织中成功地应用分面分析的思想,建立起了一套完整、全面、等级层次鲜明的主题目录体系以提高信息组织的质量,这一点值得我们借鉴与学习。

目前,国内的许多中文引擎或者因没有分类路径入口,而不能跟上未来形势的发展;或者因目录体系缺乏必要的分类主题理论基础,而给信息的确切归类和准确检索带来了一系列的困难。我们并不一定要照搬Yahoo的分类模式。在具体的编制过程中,应从中国人的思维习惯、检索习惯出发,结合国内已有的主题分类的理论体系(如:《中图法》等),建立所需的分类框架。

2、应逐步增大数据库的规模,从而奠定成功的信息检索的物质基础。建议可以通过两种方式补充数据库的内容:一是鼓励用户将自己网页的地址(URL)通过联机表格递交,二是由自身的巡视软件不断去发现网上新出现的文件,将之归入数据库,在补充的过程中,也应注意数据库内容的定期更新。关于这一点,现在的一些中文搜索引擎做得还很不够,往往只知盲目地填充信息,却缺乏对库内容应有的维护工作,导致数据库庞大臃肿,检索效率低,信息内容陈旧,查准率差。

3、鉴于单纯依赖手工进行信息归类效率低的缺陷,应在这方面加强研究,考虑是否可将目前在文本环境中已经实现并在进一步完善的自动分类、自动标引和自动文摘等处理信息内容的手段用到网络信息资源的组织上来。手工和机器辅助的结合,定能提高工作效率,改善信息组织、管理的质量。

另外,应继续加强检索软件的研制和开发工作。WWW网页内容多由图像、动画、声音、视频等多媒体信息构成。应积极探索这一类信息的检索途径,而不仅限于关键词检索方式。目前,对多媒体信息的存储,标引和检索正日益引起计算机和信息管理领域人士的注意。应密切跟踪这方面技术的发展,并将其切实应用到中文引擎的检索软件的编制上来。

4、参与信息采集、筛选和组织工作的人员素质的高低将直接或间接影响到编制的主题分类体系的质量。因此,各个从事网络信息服务业的部门或企业,尤其是开发中文搜索引擎的部门或企业,应切实加强人员的培训,特别是加强他们在信息分类组织、计算机检索等方面的能力。网络信息资源的组织和开发是一项艰难而又富有前途的工作,广大的图书情报界人士、信息管理和计算机领域的专家应尽快转变观念,加入到开发的行列中来,从而不断提高队伍的素质。

时间: 2024-10-27 04:35:35

搜索引擎Yahoo的分类体系及性能评价的相关文章

搜索引擎Yahoo的分类体系及性能评价-Yahoo研究

目前很多的搜索引擎都是将人工编制的等级式主题目录和计算机检索软件提供的关键词等检索手段结合起来,完成网络信息资源的组织任务.Yahoo就是这种等级式主题指南类搜索引擎的典型代表. Yahoo的魅力,就在于它的可浏览式等级主题索引.按照主题建立分类索引,提供全面的分类体系结构,并结合高质量的检索软件,Yahoo成功地建立起了一套独特的信息管理和组织机制,使得对网络信息的全面检索变成现实.现对Yahoo的类目体系.分类原理.检索方式.性能评价等作进一步的探讨. ■ 一.类目体系Yahoo由14个基本

国内首个搜索引擎网民权益保障体系

百度近日联合中国消费者协会共同发起了国内首个搜索引擎网民权益保障体系,即当百度登录用户在百度点击"推广链接",遭遇假冒网站.钓鱼欺诈并造成实际损失时,经核实后可获得一定额度的保障金. 百度推网民权益保障计划 百度网民权益保障计划是指,百度注册用户在登录百度账户状态下点击百度推广链接,因推广商家采取假冒官网或资质.实施钓鱼等欺诈行为与用户发生交易导致用户受到实际经济损失的,用户可按保障计划的有关规则向百度申请一定额度的保障金,并得到百度在消费维权方面的相关支持. 目前百度网民权益保障计划

张彧浩:搜索引擎成为B2C营销体系核心

3月25-26日,第一届赢时代年会与2011网商大会厦门站暨第二节鼓浪听涛网络零售发展战略高峰论坛在厦门举行,本次年会作为2011年第一场网络营销及电子商务的盛会受到了业界人士的热捧.会议从SEO.B2B.SNS.视频.微博.Email营销等方面进行了探讨. 以下为乐酷天CMO张彧浩演讲实录: 首先给大家介绍一下乐酷天,可能大家不是很了解他,他是全球第九大市值的网络公司,是全球三大网络购物公司,我们专注于做B2C平台的运营商.大家在分析中国的网购市场,在这里我们想着重给大家介绍一下B2C的市场.

第3期Talk实录 | 数据驱动的大规模分类体系构建

Q & A Q 对于关系传递性的正确性判断这篇论文,文章是建立在构建标注数据和特征上来做的,想请问下有没有一个宏观的解释,在什么情况下传递性成立以及什么时候不成立呢?换句话说,不成立主要是因为什么引起的呢? 梁家卿 因为我们使用的是一个黑核,就是机器学习模型,所以我们很难知道它具体是由于什么原因引起的.我猜想的话,主要是因为中间词 B 意思的偏移,但是这个偏移我们很难严格的定义.总来说很难知道具体原因是什么,因为机器模型实在是不可解释. Q 对于 recall 的评估,文章的模型发现的错误 is

Yahoo 优化和排名技术

关于YAHOO的优化和排名技术基础, 请参考 搜索引擎营销基础教程 - 在雅虎网站获得良好的排名Yahoo推出的新搜索引擎机器人叫YahooSlurp.YahooSlurp跟GoogleBot一样,顺着每个HREF链接找到网站.它不会抓取SRC链接,如图片或框架.如果优化一个使用了框架的网站,要使用 <noframes> 标签.YahooSlurp可以跟踪动态页面链接,但Yahoo还是建议用文本链接来指向动态页面,因此做一个网站地图仍然是优化的好方法.YahooSlurp尊重一般robot.t

搜商网以“搜”杠杆 撬动垂直搜索引擎市场

中介交易 SEO诊断 淘宝客 云主机 技术大厅 当前中国网络经济继续保持快速增长势头,艾瑞咨询公司发布互联网一季度数据,网络经济市场规模130.4亿元,环比降7.1%,同比增12.5%. 其中,网络游戏市场规模61.6亿元,搜索引擎13.11亿元,国内电子商务运营商营收规模13.7亿元,同比分别增长32.5%.41.2%.10%.目前中国网络经济的快速增长主要得益于移动增值.网络游戏和网络广告这三大传统网络行业的稳定增长,而以搜索引擎和电子商务为代表的新兴行业的迅速崛起,则对中国网络经济市场起到

我眼中的韩国搜索引擎

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 韩国现在国内的两大搜索网站是naver和empas,和Google,百度不同的是这两个网站在韩国都是综合性的门户网站,除了搜索服务外,还提供邮箱,相册,网上购物,新闻,金融等服务.据由美国"阿尔赖克斯"网站(www.alexa.com)提供的,截至2003年3月末,对全球500强网站的调查结果显示,韩国的两大搜索网站&qu

数据挖掘中分类算法小结

数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析

数据挖掘分类方法小结

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估:当前的市场营销中很重要的一个特点是强调客户细分.客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户.偶然大量呼叫的客户.稳定呼叫的客户.其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征:其他分类应用如文献检索和搜索引擎中的自动文本分类技术:安全领域有基于分类技术的入侵检测等等.机