《大规模元搜索引擎技》—导读

‖前　言

近年来，万维网(World Wide Web，简称Web)已经成为最大的信息源, 开发先进的搜索工具一直是因特网(Internet)技术的一项关键研究和开发工作。由于Google和Yahoo!等主流搜索引擎的普及，目前在Web上的搜索工具中，搜索引擎是人们最为熟知的。虽然这些主流搜索引擎非常成功，但也存在许多严重的局限性。例如，每个搜索引擎仅能覆盖Web上全部可用内容的一小部分；其基于爬虫的技术很难完全达到所谓的深层网（deep Web,也称为深网），虽然这方面最近取得了很大的进展并且紧跟Web内容的变化和扩展而发展。
本书所介绍的大规模元搜索引擎技术具有克服这些主流搜索引擎局限性的潜力。元搜索引擎是一个支持统一访问一些现有搜索引擎的搜索系统。本质上，元搜索引擎将接收到的查询发送给其他的搜索引擎，当这些被调用的搜索引擎返回结果之后，元搜索引擎将这些结果聚集为一个排序列表并展现给用户。虽然开发元搜索引擎的最初动力是其结合多个搜索引擎的搜索范围的能力，但它还有更多的益处，如可以获得更好、更新的结果，能够访问深层网。
本书重点关注大规模元搜索引擎（large-scale metasearch engine）的概念。这种元搜索引擎连接成千上万个搜索引擎。构建和维护大规模元搜索引擎需要先进的元搜索引擎技术，使其一些关键部件具有高度可扩展性和自动化解决方案。本书的目的就是广泛而深入地介绍大规模元搜索引擎技术，对作为Web搜索的竞争技术的大规模元搜索引擎技术的可行性进行了强有力的论证。本书将详细讨论大规模元搜索引擎的主要部件：搜索引擎选择，这一部件用于识别最有可能为任何给定查询提供有用结果的各个搜索引擎；搜索引擎加入，这一部件与各个搜索引擎进行交互，包括从元搜索引擎发送查询给本地搜索引擎以及从不同的搜索引擎返回的响应页面中提取搜索结果；结果合并，这一部件将不同搜索引擎返回的结果合并为一个排序列表。大规模元搜索引擎技术包括高度准确和可扩展的搜索引擎选择算法、高度自动化的搜索引擎加入技术和高效的结果合并方法。
本书可作为Web数据管理和信息检索等Web技术相关课程的部分内容，也可作为Web搜索领域的研究人员和开发人员的参考书。
致谢
对数据管理系列丛书编辑M. Tamer zsu博士表示衷心的感谢，他仔细阅读了全部书稿，并提出了非常有价值及建设性的建议，这些建议对改进本书有很大的帮助。感谢Hongkun Zhao和Can Lin，他们阅读了部分书稿并提出宝贵意见。还要感谢本书的编辑Diane Cerra在写作过程中给予的帮助。

Meng Weiyi和Clement T.Yu
2010年11月

‖目　录
丛书前言
译者序
前　言
作者简介
[第1章　绪言
　　1.1　Web上查找信息
　　　　1.1.1　浏览
　　　　1.1.2　搜索]()
　　[1.2　文本检索概述
　　　　1.2.1　系统体系结构
　　　　1.2.2　文档表示
　　　　1.2.3　文档-查询匹配
　　　　1.2.4　查询处理
　　　　1.2.5　检索有效性度量]()
　　 [ 1.3　搜索引擎技术概述
　　　　1.3.1　Web的专门特性
　　　　1.3.2　Web爬虫
　　　　1.3.3　利用标签信息
　　　　1.3.4　利用链接信息
　　　　1.3.5　结果组织]()
　　1.4　本书概述
[第2章　元搜索引擎体系结构
　　2.1　系统体系结构]()
　　2.2　为什么使用元搜索引擎技术
　　[2.3　挑战环境
　　　　2.3.1　异构及其影响
　　　　2.3.2　规范化研究]()
第3章　搜索引擎选择
　　3.1　粗糙表记方法
　　3.2　基于学习的方法
　　3.3　基于样本文档的方法
　　3.4　统计表记方法
　　　　3.4.1　D-WISE
　　　　3.4.2　CORI Net
　　　　3.4.3　gGlOSS
　　　　3.4.4　潜在有用文档数目
　　　　3.4.5　最相似文档的相似度
　　　　3.4.6　搜索引擎表记生成
第4章　搜索引擎加入
　　4.1　搜索引擎连接
　　　　4.1.1　搜索引擎的HTML表单标签
　　　　4.1.2　搜索引擎自动连接
　　4.2　搜索结果抽取
　　　　4.2.1　半自动包装器生成
　　　　4.2.2　自动包装器生成
第5章　结果合并
　　5.1　基于完全文档内容的合并
　　5.2　基于搜索结果记录的合并
　　5.3　基于结果本地排序的合并
　　　　5.3.1　基于轮转的方法
　　　　5.3.2　基于相似度转换的方法
　　　　5.3.3　基于投票的方法
　　　　5.3.4　基于机器学习的方法
第6章　总结与后续研究
参考文献

时间： 2024-10-06 13:18:10

《大规模元搜索引擎技》—导读的相关文章

《深入理解Scala》——第1章，第1.2节当函数式编程遇见面向对象

1.2 当函数式编程遇见面向对象深入理解Scala 函数式编程和面向对象编程是软件开发的两种不同途径.函数式编程并非什么新概念,在现代开发者的开发工具箱里也绝非是什么天外来客.我们将通过Java生态圈里的例子来展示这一点,主要来看Spring Application framework和Google Collections库.这两个库都在Java的面向对象基础上融合了函数式的概念,而如果我们把它们翻译成Scala,则会优雅得多.在深入之前,我们需要先理解面向对象编程和函数式编程这两个术语的含义

《深入理解Scala》——第1章，第1.4节与JVM的无缝集成

1.4 与JVM的无缝集成深入理解Scala Scala的吸引力之一在于它与Java和JVM的无缝集成.Scala与Java有很强的兼容性,比如说Java类可以直接映射为Scala类.这种紧密联系使Java到Scala的迁移相当简单,但在使用Scala的一些高级特性时还是需要小心的,Scala有些高级特性是Java里没有的.在Scala语言设计时已经小心地考虑了与Java无缝交互的问题,用Java写的库,大部分可以直接照搬(as-is)到Scala里. 1.4.1 Scala调用Java 从S

《深入理解Scala》——第2章，第2.1节学习使用Scala交互模式（REPL）

第2章核心规则深入理解Scala 本章包括的内容: • 使用Scala交互模式(Read Eval Print Loop 简称REPL) • 面向表达式编程 • 不变性(Immutability) • Option类本章内容覆盖了每个新Scala开发者都需要知道的几个主题.本章不会深入到每个主题里,但是会讲到可以让你自己去接着探索的程度.你将学会使用REPL,学会如何利用这个工具做软件的快速原型开发.然后我们会学到面向表达式编程,并从另一个视角来看控制结构是怎么回事.在此基础上,我们来研究不

《深入理解Scala》——第1章，第1.3节静态类型和表达力

1.3 静态类型和表达力深入理解Scala 开发人员中有一个误解,认为静态类型必然导致冗长的代码.之所以如此是因为很多继承自C的语言强制要求程序员必须在代码中多处明确地指定类型.随着软件开发技术和编译器理论的发展,情况已经改变.Scala利用了其中一些技术进步来减少样板(boilerplate)代码,保持代码简洁. Scala做了以下几个简单的设计决策,以提高代码表达力. • 把类型标注(type annotation)换到变量右边. • 类型推断. • 可扩展的语法. • 用户自定义的隐式转

《深入理解Scala》——第1章，第1.5节总结

1.5 总结深入理解Scala 本章中,你学到了一些Scala的设计理念.设计Scala的初衷在于把不同语言中的多种概念融合起来.Scala融合了函数式和面向对象编程,尽管显然Java也已经这么做了.Scala精选其语法,极大地减少了语言中的繁冗之处,使一些强大的特性可以优雅地表达,比如类型推断.最后,Scala和Java能够紧密集成,而且运行在Java虚拟机上,这或许是让Scala变成一种实用选择的最重要的一点.几乎不花代价就可以把Scala用于我们的日常工作中. 因为Scala融合了多种概

《深入理解Scala》——第1章，第1.1节Scala一种混合式编程语言

第1章 Scala--一种混合式编程语言 Scala是一种将其他编程语言中的多种技巧融合为一的语言.Scala尝试跨越多种不同类型的语言,给开发者提供面向对象编程.函数式编程.富有表达力的语法.静态强类型和丰富的泛型等特性,而且全部架设于Java虚拟机之上.因此开发者使用Scala时可以继续使用原本熟悉的某种编程特性,但要发挥Scala的强大能力则需要结合使用这些有时候相互抵触的概念和特性,建立一种平衡的和谐.Scala对开发者的真正解放之处在于让开发者可以随意使用最适合手头上的问题的编程范式.

《深入理解Scala》——第2章，第2.2节优先采用面向表达式编程

2.2 优先采用面向表达式编程深入理解Scala 面向表达式编程是个术语,意思是在代码中使用表达式而不用语句.表达式和语句的区别是什么?语句是可以执行的东西,表达式是可以求值的东西.在实践中这有什么意义呢?表达式返回值,语句执行代码,但是不返回值.本节我们将学习面向表达式编程的全部知识,并理解它对简化程序有什么帮助.我们也会看一下对象的可变性,以及可变性与面向表达式编程的关系. 作者注:语句VS表达式语句是可以执行的东西,表达式是可以求值的东西. 表达式是运算结果为一个值的代码块.Scala

《深入理解Scala》——第2章，第2.3节优先选择不变性

2.3 优先选择不变性深入理解Scala 编程中的不变性指对象一旦创建后就不再改变状态.这是函数式编程的基石之一,也是JVM上的面向对象编程的推荐实践之一.Scala也不例外,在设计上优先选择不变性,在很多场景中把不变性作为默认设置.对此,你可能一下子会不适应.本节中,我们将学到不变性对于判等问题和并发编程能提供什么帮助. Scala里首先要明白的是不变对象和不变引用(immutable referene)的区别.Scala里的所有变量都是指向对象的引用.把变量声明为val意味着它是个不变"引

《深入理解Scala》——第2章，第2.4节用None不用null

2.4 用None不用null深入理解Scala Scala在标准库里提供了scala.Option类,鼓励大家在一般编程时尽量不要使用null.Option可以视作一个容器,里面要么有东西,要么什么都没有.Option通过两个子类来实现此含义:Some和None.Some表示容器里有且仅有一个东西,None表示空容器,有点类似List的Nil的含义. 在Java和其他允许null的语言里,null经常作为一个占位符用于返回值,表示非致命的错误,或者表示一个变量未被初始化.Scala里,你可以用

《深入理解Scala》——第2章，第2.5节多态场景下的判等

2.5 多态场景下的判等深入理解Scala 众所周知,为多态的面向对象系统定义合适的判等和散列方法是个特别难的过程.这是因为子类可能在整个过程中造成一些相当怪异的问题,尤其是当类型层次上有多个实体(concrete)级别的时候.一般来说,对于需要比引用判等更强的判等(译者注:比如需要判断对象内部数据)的类,最好避免多层实体类层次.这是什么意思呢?有些时候类只需要引用判等就够了.也就是说只要两个对象不是同一个实例就判为不等.但是如果我们需要判断两个不同实例是否相等,而且又有多层实体类层次(mul

猜你喜欢

数组的连续最大子段和

问题描述:输入是一个大小为n的整型数组,要求输出数组的任何连续子数组中的最大值.例如:输入的数组为array[10] = {31,-41,59,26,-53,58,97,-93,-23,84};输出最 ...

动画演示：Excel表格样式的套用与创建

Excel2007及以上版本提供了许多漂亮的预定义表格样式,我们可以为数据表轻松快速地套用格式.如果预定义的表样式不能满足需要,还可以创建并应用自定义的表格样式. 下面我们用简要文字和动画演示的方式来 ...

library cache lock 的解决案例

cache|解决下午,业务人员报告,执行任何和zzss03201281cs_no表有关的操作都会hang住,包括desc zzss03201281cs_no,也会hang在那里第一感觉是锁了,于 ...

如何在Eclipse中自动添加注释和自定义注释风格

在无论什么项目中,注释都是不可缺少的,注释的种类和风格非常之多,每个公司有每个公司自己的一套标准,中大型项目一般写注释是为了自动生成文档便于维护,比如Java自带的Javadoc.功能更强大使用更广泛 ...

Jquery源码分析---DOM元素（上）

5.1 dom元素的属性对dom元素的操作,对元素的属性进行操作是很重要的一项.我们可以通过 dom元素的原始方法对元素元素进行操作,但是由于浏览器的兼容等各方面的问题,jquery和其它的lib ...

如何通过优化Win7来实现加速搜索

由于Win7变得强大好用了,所以自己也就变得越来越懒了,使用Win7系统的这段时间里,也发现了很多它的小秘密.Windows7强大的搜索功能是一个亮点,并且搜索框随处可见,需要找某个文件文档通过快 ...

LINUX REISERFS 6块盘 RAID5邮件服务器的恢复经验

新网,企业邮件服务器,存储于146G×6 RAID5中,有上百万企业用户的邮件,数据区,只分一个区,文件系统为REISERFS,正常工作中,RAID突然OFFLINE,管理员到机房检查时,发现有两块盘 ...

IBM ILOG JViews Charts产品及功能介绍

IBM ILOG 的图形化产品使海量的复杂数据更易于理解.更便于管理,从而增强了企业决策制定的速度及能力.当开发人员使用 ILOG 可视化套件创建演示时,他至少能节省下 50% 到 80% 的开发时 ...

批量删除Excel空行

在利用Excel统计与分析对象时,数据的录入工作不可能一蹴而就,记录的添加.删除.剪切.合并是少不了的,在经过多次的编辑修改过程之后,在表格中往往会出现许多的空行.这些空行的存在既不美观,同时也影响了 ...

13款设计师标配的实用APP

「地球没有谁都一样转!」现在,这句话也不能说得太绝对了- 科技的不断推陈出新正带领我们进入一个前所未有的不确定时代,之所以这样讲是因为过去那些我们很笃定的事情会随着某款App的问世而起了变化,在一 ...

PHP判断一个字符串是否是回文字符串的方法

这篇文章主要介绍了PHP判断一个字符串是否是回文字符串的方法,实例分析了php操作字符串判断回文的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了PHP判断一个字符串是否是回 ...

好照片调色让你瞬间惊艳

有一句歌唱得好:最美不过夕阳红.一说到日暮时分,想必大部分人脑海中都会浮现出红霞满天的场景,这就是中国人眼中的美.所以我们也同样期望拍摄的落日照片能够有脑海中所期盼的震撼效果,而阳光或者是相机总有不给 ...

Bulk Rename Utility不显示扩展名也更名

在我们传统的印象中,要更改文件的扩展名,需要先通过系统设置将扩展名显示出来,然后更改.其实,如果用一些更名软件,可以不理会文件扩展名是否显示出来,直接在扩展名项目中填入新的扩展名,执行更名命令即可 ...

游戏-nodejs的readline如何变成同步？还是采用一个异步循环?

问题描述 nodejs的readline如何变成同步?还是采用一个异步循环? 我在给一个小朋友教编程,在使用javascript/node.js 已经讲到条件语句,循环,函数.现在要做一个猜数字的游戏 ...

sql server-SQL Server提示错误，求高手帮解决

问题描述 SQL Server提示错误,求高手帮解决 select gl.ccus_id 客户编码, gl.cexch_name 币种, gl.cbegind_c 金额期初方向, (case when ...

C编写的调试宏

#define LOG(...) {char _bf[1024]; snprintf(_bf, sizeof(_bf),__VA_ARGS__);fprintf(stderr,"%s&quo ...

小城老河口的“智慧城市”建设样本

上午报告树要倒下午就得到解决,家长可知道学生一天的"轨迹"-- 老河口"智慧城市"自2014年初正式启动建设,到2015年底项目一期建成并投入使用,同时被国家住 ...

asp.net 自定义控件怎么用呢，怎么调用属性

问题描述我在winform中创建了一个自定义控件,.dll的,那么在web中怎么用这个控件呢,在winform中需要传出来一个参数,在web部分要用这个参数,该怎么做呢,求大神赐教解决方案解决方 ...

Visual Studio 2010无法启动调试

现象:Visual Studio 2010点击调试或者按F5,Visual Studio 2010没有什么反应,但又不报错.而点击执行不调试(Ctrl+F5)却没有问题. ...

从世界冠军到数据科学家他是如何炼成的？ | 硬创公开课

大数据这个词我们听得太多了,可是很少有人意识到,随着互联网的发展,今时今日的这些"大"字究竟已经意味着一种什么样的量级.除去少数哗众取宠的使用这个词的公司外,那些真正拥有大数据的企 ...

如何不被程序员（RD）们嫌弃－－写给那些血气方刚的产品经理（PM）

最近有位刚做 PM(产品经理)的小伙跑来跟我控诉,说公司技术部的 RD 们(程序员)个个不给力.需求过了千百遍还是理解错,或者就是简单回一句"做不了",表情如死灰. 这位 PM 血 ...

深入解析Swift语言中的协议_Swift

协议为方法,属性和其他要求的功能提供了一个蓝本.它只是描述了方法或属性的骨架,而不是实现.方法和属性实现还可以通过定义类,函数和枚举完成.协议的一致性是指方法或属性满足协议的要求. 语法协议也遵循类似 ...

C语言对mysql数据库的操作

原文:C语言对mysql数据库的操作这已经是一相当老的话题.不过今天我才首次使用,把今天的一些体会写下来,也许能给一些新手带来一定的帮助,更重要的是供自己今后忘记的怎么使用而进行查阅的! 我们言归正传 ...

thinkphp实现文件上传同时保存文件路径在数据库中

thinkphp有文件上传类我们只要调用就可以了并不需要其它的操作,我们简单介绍一下这个类. 上传类使用ORG.Net.UpdateFile类,最新版本的上传类包含的功能如下(有些功能需要结合Thin ...

亏本200万的女装淘品牌天猫店：曾经的辉煌惨痛的转型教训

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅第一篇:曾经的辉煌. 我们是一家做 ...

这5位“坏老板”竟敢这么骂员工！周鸿祎发脾气把声带喊撕裂了

这似乎是一个只有"坏老板"才能成功的世道.总有一些看起来让人讨厌的企业家,创立了一个让人喜欢的企业. 可不管怎么样,他们发脾气.骂员工的样子真可怕! 九哥带你身临其境体验一番.看你 ...

12306 App是怎样炼成的？

[导读]铁路12306开发面临复杂局面,包括售票系统复杂,系统陈旧,升级面临非常大困难.此外,受体制原因,一些火车票未直接对社会开放. 一年一度的春运大战即将开始,铁路部门旗下官方手机购票客户端铁路1 ...

tomcat部署到阿里云服务器，虚拟路径启动有问题

问题描述 tomcat部署到阿里云服务器,虚拟路径启动有问题 server.xml同样的配置在本地可以跑,但是放到阿里云就启动不了,报: SEVERE: Error starting static R ...

D1net阅闻：错失移动互联网的微软押注下一个未来：云和人工智能

错失移动互联网的微软押注下一个未来:云和人工智能错失移动互联网时代的软件巨头微软,如今正试图在下一个行业变革趋势中赢得先机.微软认为,下一个大趋势便是人工智能.在10日进行的微软2017年Build ...

日本游戏产业不断衰落背后：硬件设计不合理

[摘要]硬件结构特殊.与主流游戏背离和人才流失导致了日本游戏业的衰落.腾讯数码讯(编译:Denver) 如果你是一个从红白机时代走过来的电视游戏玩家,可能对索尼PS4更感兴趣,而不是微软的 Xbox ...

热搜

《大规模元搜索引擎技》—导读

‖前 言

《大规模元搜索引擎技》—导读的相关文章

‖前　言