《大规模元搜索引擎技(1)》一1.4 本书概述

1.4 本书概述

本书的其余部分将专注于大规模元搜索引擎技术。现在简述其余各章。
第2章首先概述一个典型的大规模元搜索引擎的主要部件。这些部件包括搜索引擎选择器、搜索引擎加入器和结果合并器。通过对元搜索引擎和主流搜索引擎两种搜索技术优点和缺点的仔细分析,这一章试图提出充分理由来阐述元搜索引擎技术可以作为主流搜索引擎之外的另一种可行搜索技术。最后,鉴于元搜索引擎构建于Web环境,这一章将对Web环境进行讨论,进而对构建大规模元搜索引擎所面临的挑战给出一些见解。
第3章集中讨论搜索引擎选择器。对任何给定的用户查询,这个部件的目标是在元搜索引擎使用的那些搜索引擎中,确定哪个搜索引擎最有可能返回有用的结果。这一章将解决三个重要的问题:如何代表每个搜索引擎的内容;如何使用代表信息选择搜索引擎;如何生成代表信息。这一章将介绍几种类型的方法但重点讨论使用搜索词的详细统计数据来代表搜索引擎内容的方法。
第4章讨论把搜索引擎加入元搜索引擎所需的技术。将涉及两个主要问题。第一是关于元搜索引擎与其每个成员搜索引擎之间建立通信的问题。基本上,一个元搜索引擎需要把用户查询传给每个成员搜索引擎,根据每个成员搜索引擎格式要求进行必要的查询格式改变,并接收每个成员搜索引擎返回的响应页面。第二个问题是关于从响应页面提取搜索结果记录,每个记录对应于一个检索页面。这一章将介绍几种结果提取技术。
第5章介绍各种搜索结果合并算法。这些算法沿着几个维度涵盖广泛的场景。第一个维度是有关使用每个结果的何种类型信息进行合并,信息种类可从每个结果的本地排序,到每个结果的标题和概览,到每个结果的完整文档。一些合并算法同时使用多种类型的信息。第二个维度是各成员搜索引擎返回查询的文档之间的重叠度,范围可从没有重叠到有一些重叠,到完全相同的文档集。
第6章总结本书主要论述的内容,讨论元搜索引擎技术未来的发展方向,列出一些具有挑战性的有待研究的具体问题。

时间: 2024-08-02 14:10:09

《大规模元搜索引擎技(1)》一1.4 本书概述的相关文章

《大规模元搜索引擎技》——1.4 本书概述

1.4 本书概述 本书的其余部分将专注于大规模元搜索引擎技术.现在简述其余各章.第2章首先概述一个典型的大规模元搜索引擎的主要部件.这些部件包括搜索引擎选择器.搜索引擎加入器和结果合并器.通过对元搜索引擎和主流搜索引擎两种搜索技术优点和缺点的仔细分析,这一章试图提出充分理由来阐述元搜索引擎技术可以作为主流搜索引擎之外的另一种可行搜索技术.最后,鉴于元搜索引擎构建于Web环境,这一章将对Web环境进行讨论,进而对构建大规模元搜索引擎所面临的挑战给出一些见解.第3章集中讨论搜索引擎选择器.对任何给定

《大规模元搜索引擎技》——1.2 文本检索概述

1.2 文本检索概述 对于给定的查询,文本(信息)检索解决从文本文档的集合中查找相关(有用)文档的问题.文本检索技术对Web搜索引擎有深刻而直接的影响.事实上,第一代搜索引擎(约1995-1997)几乎是完全基于传统文本检索技术构建的,其中Web页面被视为文本文档.在本节中,我们简要概述经典文本检索中的一些基本概念.此概述主要基于向量空间模型(vector space model),其中文档和用户查询均表示为具有权重的词向量[Salton and McGill,1983].想更多了解这个主题的读

《大规模元搜索引擎技(1)》一 2.1 系统体系结构

2.1 系统体系结构 搜索文本文档的元搜索引擎可分为两种类型:通用元搜索引擎和专用元搜索引擎.前者旨在搜索整个Web,而后者专注于在特定领域搜索信息(例如,新闻.招聘).构建每个类型的元搜索引擎有两种方法:主流搜索引擎方法.这种方法使用少数的热门主流搜索引擎来构建元搜索引擎.因而,使用这种方法构建通用元搜索引擎,可以使用少量的主流搜索引擎,如Google.Yahoo!.Bing(MSN)和Ask.类似地,在特定领域建立一个专用元搜索引擎也可以使用这种方法,使用该领域的主流搜索引擎.例如,在新闻

《大规模元搜索引擎技》——2.3 挑战环境

2.3 挑战环境 大多数情况下,元搜索引擎使用的成员搜索引擎是自治的,即它们是独立建立和维护.每个搜索引擎的开发者决定其搜索引擎将为哪些文档提供查询服务.如何表示文档以及何时更新索引.文档和用户查询之间的相似度通过相似度函数计算.同样,也是由每个搜索引擎的开发者决定使用哪种相似度函数.商业搜索引擎的开发者通常把他们使用的相似度函数和其他实现细节视为私有信息,不向公众提供.一般来说,元搜索引擎需要与没有直接合作关系的搜索引擎交互.成员搜索引擎自治的直接后果是存在大量的异构.2.3.1节介绍元搜索引

《大规模元搜索引擎技(1)》一第2章 元搜索引擎体系结构

第2章 元搜索引擎体系结构 元搜索引擎是一个提供统一方式访问多个现有搜索引擎的搜索系统.该系统基于元搜索(metasearch)概念,元搜索是实时在线搜索多数据源的模式.元搜索与联合搜索(federated search)的含义非常相似,这两个术语有时可以互换.元搜索引擎有时也称为搜索代理(search broker),因为它在搜索信息的用户和一组搜索引擎之间充当"中间人"的角色[Craswell,N.,2000].元搜索引擎与分布式信息检索(distributed informati

《大规模元搜索引擎技》—导读

|前 言 近年来,万维网(World Wide Web,简称Web)已经成为最大的信息源, 开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作.由于Google和Yahoo!等主流搜索引擎的普及,目前在Web上的搜索工具中,搜索引擎是人们最为熟知的.虽然这些主流搜索引擎非常成功,但也存在许多严重的局限性.例如,每个搜索引擎仅能覆盖Web上全部可用内容的一小部分:其基于爬虫的技术很难完全达到所谓的深层网(deep Web,也称为深网),虽然这方面最近取得了很大的进展并且

《大规模元搜索引擎技(1)》一2.2 为什么使用元搜索引擎技术

2.2 为什么使用元搜索引擎技术 本节试图全面分析元搜索引擎相对搜索引擎的潜在优势.我们主要关注通用元搜索引擎和通用搜索引擎的比较. 1.扩大搜索范围 元搜索引擎可以通过能够统一访问所有成员搜索引擎的功能搜索到被至少一个成员搜索引擎索引到的任何文档.因此,元搜索引擎的搜索范围是其成员搜索引擎搜索范围的并集.这个益处是早期元搜索引擎背后的主要动因,目前仍然是最公认的益处.2.1节描述了两种可能的方法来实现通用元搜索引擎,即主流搜索引擎方法和大规模元搜索引擎方法.术语"扩大搜索范围"对这两

《大规模元搜索引擎技(1)》一2.3 挑战环境

2.3 挑战环境 大多数情况下,元搜索引擎使用的成员搜索引擎是自治的,即它们是独立建立和维护.每个搜索引擎的开发者决定其搜索引擎将为哪些文档提供查询服务.如何表示文档以及何时更新索引.文档和用户查询之间的相似度通过相似度函数计算.同样,也是由每个搜索引擎的开发者决定使用哪种相似度函数.商业搜索引擎的开发者通常把他们使用的相似度函数和其他实现细节视为私有信息,不向公众提供.一般来说,元搜索引擎需要与没有直接合作关系的搜索引擎交互.成员搜索引擎自治的直接后果是存在大量的异构.2.3.1节介绍元搜索引

《大规模元搜索引擎技(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都