《大规模元搜索引擎技》—导读

‖前 言

近年来,万维网(World Wide Web,简称Web)已经成为最大的信息源, 开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作。由于Google和Yahoo!等主流搜索引擎的普及,目前在Web上的搜索工具中,搜索引擎是人们最为熟知的。虽然这些主流搜索引擎非常成功,但也存在许多严重的局限性。例如,每个搜索引擎仅能覆盖Web上全部可用内容的一小部分;其基于爬虫的技术很难完全达到所谓的深层网(deep Web,也称为深网),虽然这方面最近取得了很大的进展并且紧跟Web内容的变化和扩展而发展。
本书所介绍的大规模元搜索引擎技术具有克服这些主流搜索引擎局限性的潜力。元搜索引擎是一个支持统一访问一些现有搜索引擎的搜索系统。本质上,元搜索引擎将接收到的查询发送给其他的搜索引擎,当这些被调用的搜索引擎返回结果之后,元搜索引擎将这些结果聚集为一个排序列表并展现给用户。虽然开发元搜索引擎的最初动力是其结合多个搜索引擎的搜索范围的能力,但它还有更多的益处,如可以获得更好、更新的结果,能够访问深层网。
本书重点关注大规模元搜索引擎(large-scale metasearch engine)的概念。这种元搜索引擎连接成千上万个搜索引擎。构建和维护大规模元搜索引擎需要先进的元搜索引擎技术,使其一些关键部件具有高度可扩展性和自动化解决方案。本书的目的就是广泛而深入地介绍大规模元搜索引擎技术,对作为Web搜索的竞争技术的大规模元搜索引擎技术的可行性进行了强有力的论证。本书将详细讨论大规模元搜索引擎的主要部件:搜索引擎选择,这一部件用于识别最有可能为任何给定查询提供有用结果的各个搜索引擎;搜索引擎加入,这一部件与各个搜索引擎进行交互,包括从元搜索引擎发送查询给本地搜索引擎以及从不同的搜索引擎返回的响应页面中提取搜索结果;结果合并,这一部件将不同搜索引擎返回的结果合并为一个排序列表。大规模元搜索引擎技术包括高度准确和可扩展的搜索引擎选择算法、高度自动化的搜索引擎加入技术和高效的结果合并方法。
本书可作为Web数据管理和信息检索等Web技术相关课程的部分内容,也可作为Web搜索领域的研究人员和开发人员的参考书。
致谢
对数据管理系列丛书编辑M. Tamer zsu博士表示衷心的感谢,他仔细阅读了全部书稿,并提出了非常有价值及建设性的建议,这些建议对改进本书有很大的帮助。感谢Hongkun Zhao和Can Lin,他们阅读了部分书稿并提出宝贵意见。还要感谢本书的编辑Diane Cerra在写作过程中给予的帮助。

Meng Weiyi和Clement T.Yu
2010年11月

‖目 录
丛书前言
译者序
前 言
作者简介
[第1章 绪言
  1.1 Web上查找信息
    1.1.1 浏览
    1.1.2 搜索]()
  [1.2 文本检索概述
    1.2.1 系统体系结构
    1.2.2 文档表示
    1.2.3 文档-查询匹配
    1.2.4 查询处理
    1.2.5 检索有效性度量]()
   [ 1.3 搜索引擎技术概述
    1.3.1 Web的专门特性
    1.3.2 Web爬虫
    1.3.3 利用标签信息
    1.3.4 利用链接信息
    1.3.5 结果组织]()
  1.4 本书概述
[第2章 元搜索引擎体系结构
  2.1 系统体系结构]()
  2.2 为什么使用元搜索引擎技术
  [2.3 挑战环境
    2.3.1 异构及其影响
    2.3.2 规范化研究]()
第3章 搜索引擎选择
  3.1 粗糙表记方法
  3.2 基于学习的方法
  3.3 基于样本文档的方法
  3.4 统计表记方法
    3.4.1 D-WISE
    3.4.2 CORI Net
    3.4.3 gGlOSS
    3.4.4 潜在有用文档数目
    3.4.5 最相似文档的相似度
    3.4.6 搜索引擎表记生成
第4章 搜索引擎加入
  4.1 搜索引擎连接
    4.1.1 搜索引擎的HTML表单标签
    4.1.2 搜索引擎自动连接
  4.2 搜索结果抽取
    4.2.1 半自动包装器生成
    4.2.2 自动包装器生成
第5章 结果合并
  5.1 基于完全文档内容的合并
  5.2 基于搜索结果记录的合并
  5.3 基于结果本地排序的合并
    5.3.1 基于轮转的方法
    5.3.2 基于相似度转换的方法
    5.3.3 基于投票的方法
    5.3.4 基于机器学习的方法
第6章 总结与后续研究
参考文献

时间: 2024-10-06 13:18:10

《大规模元搜索引擎技》—导读的相关文章

《深入理解Scala》——第1章,第1.2节当函数式编程遇见面向对象

1.2 当函数式编程遇见面向对象 深入理解Scala 函数式编程和面向对象编程是软件开发的两种不同途径.函数式编程并非什么新概念,在现代开发者的开发工具箱里也绝非是什么天外来客.我们将通过Java生态圈里的例子来展示这一点,主要来看Spring Application framework和Google Collections库.这两个库都在Java的面向对象基础上融合了函数式的概念,而如果我们把它们翻译成Scala,则会优雅得多.在深入之前,我们需要先理解面向对象编程和函数式编程这两个术语的含义

《深入理解Scala》——第1章,第1.4节与JVM的无缝集成

1.4 与JVM的无缝集成 深入理解Scala Scala的吸引力之一在于它与Java和JVM的无缝集成.Scala与Java有很强的兼容性,比如说Java类可以直接映射为Scala类.这种紧密联系使Java到Scala的迁移相当简单,但在使用Scala的一些高级特性时还是需要小心的,Scala有些高级特性是Java里没有的.在Scala语言设计时已经小心地考虑了与Java无缝交互的问题,用Java写的库,大部分可以直接照搬(as-is)到Scala里. 1.4.1 Scala调用Java 从S

《深入理解Scala》——第2章,第2.1节学习使用Scala交互模式(REPL)

第2章 核心规则深入理解Scala 本章包括的内容: • 使用Scala交互模式(Read Eval Print Loop 简称REPL) • 面向表达式编程 • 不变性(Immutability) • Option类 本章内容覆盖了每个新Scala开发者都需要知道的几个主题.本章不会深入到每个主题里,但是会讲到可以让你自己去接着探索的程度.你将学会使用REPL,学会如何利用这个工具做软件的快速原型开发.然后我们会学到面向表达式编程,并从另一个视角来看控制结构是怎么回事.在此基础上,我们来研究不

《深入理解Scala》——第1章,第1.3节静态类型和表达力

1.3 静态类型和表达力 深入理解Scala 开发人员中有一个误解,认为静态类型必然导致冗长的代码.之所以如此是因为很多继承自C的语言强制要求程序员必须在代码中多处明确地指定类型.随着软件开发技术和编译器理论的发展,情况已经改变.Scala利用了其中一些技术进步来减少样板(boilerplate)代码,保持代码简洁. Scala做了以下几个简单的设计决策,以提高代码表达力. • 把类型标注(type annotation)换到变量右边. • 类型推断. • 可扩展的语法. • 用户自定义的隐式转

《深入理解Scala》——第1章,第1.5节总结

1.5 总结 深入理解Scala 本章中,你学到了一些Scala的设计理念.设计Scala的初衷在于把不同语言中的多种概念融合起来.Scala融合了函数式和面向对象编程,尽管显然Java也已经这么做了.Scala精选其语法,极大地减少了语言中的繁冗之处,使一些强大的特性可以优雅地表达,比如类型推断.最后,Scala和Java能够紧密集成,而且运行在Java虚拟机上,这或许是让Scala变成一种实用选择的最重要的一点.几乎不花代价就可以把Scala用于我们的日常工作中. 因为Scala融合了多种概

《深入理解Scala》——第1章,第1.1节Scala一种混合式编程语言

第1章 Scala--一种混合式编程语言 Scala是一种将其他编程语言中的多种技巧融合为一的语言.Scala尝试跨越多种不同类型的语言,给开发者提供面向对象编程.函数式编程.富有表达力的语法.静态强类型和丰富的泛型等特性,而且全部架设于Java虚拟机之上.因此开发者使用Scala时可以继续使用原本熟悉的某种编程特性,但要发挥Scala的强大能力则需要结合使用这些有时候相互抵触的概念和特性,建立一种平衡的和谐.Scala对开发者的真正解放之处在于让开发者可以随意使用最适合手头上的问题的编程范式.

《深入理解Scala》——第2章,第2.2节优先采用面向表达式编程

2.2 优先采用面向表达式编程 深入理解Scala 面向表达式编程是个术语,意思是在代码中使用表达式而不用语句.表达式和语句的区别是什么?语句是可以执行的东西,表达式是可以求值的东西.在实践中这有什么意义呢?表达式返回值,语句执行代码,但是不返回值.本节我们将学习面向表达式编程的全部知识,并理解它对简化程序有什么帮助.我们也会看一下对象的可变性,以及可变性与面向表达式编程的关系. 作者注:语句VS表达式 语句是可以执行的东西,表达式是可以求值的东西. 表达式是运算结果为一个值的代码块.Scala

《深入理解Scala》——第2章,第2.3节优先选择不变性

2.3 优先选择不变性 深入理解Scala 编程中的不变性指对象一旦创建后就不再改变状态.这是函数式编程的基石之一,也是JVM上的面向对象编程的推荐实践之一.Scala也不例外,在设计上优先选择不变性,在很多场景中把不变性作为默认设置.对此,你可能一下子会不适应.本节中,我们将学到不变性对于判等问题和并发编程能提供什么帮助. Scala里首先要明白的是不变对象和不变引用(immutable referene)的区别.Scala里的所有变量都是指向对象的引用.把变量声明为val意味着它是个不变"引

《深入理解Scala》——第2章,第2.4节用None不用null

2.4 用None不用null深入理解Scala Scala在标准库里提供了scala.Option类,鼓励大家在一般编程时尽量不要使用null.Option可以视作一个容器,里面要么有东西,要么什么都没有.Option通过两个子类来实现此含义:Some和None.Some表示容器里有且仅有一个东西,None表示空容器,有点类似List的Nil的含义. 在Java和其他允许null的语言里,null经常作为一个占位符用于返回值,表示非致命的错误,或者表示一个变量未被初始化.Scala里,你可以用

《深入理解Scala》——第2章,第2.5节多态场景下的判等

2.5 多态场景下的判等 深入理解Scala 众所周知,为多态的面向对象系统定义合适的判等和散列方法是个特别难的过程.这是因为子类可能在整个过程中造成一些相当怪异的问题,尤其是当类型层次上有多个实体(concrete)级别的时候.一般来说,对于需要比引用判等更强的判等(译者注:比如需要判断对象内部数据)的类,最好避免多层实体类层次.这是什么意思呢?有些时候类只需要引用判等就够了.也就是说只要两个对象不是同一个实例就判为不等.但是如果我们需要判断两个不同实例是否相等,而且又有多层实体类层次(mul