全文信息检索介绍及算法分析

一、摘要

本文主要介绍了全文信息检索的概念、应用领域、算法分类、技术难点和算法比较。及一款实现全文检索的数据结构和算法。

二、什么是全文数据库和全文信息检索

保存在数据库中的记录数据，从类型上可以分为两种。其一是结构化数据，象字符、日期、数值、货币等，这些数据都是具有有限长度或固定格式的数据；其二是非结构化数据，也叫全文数据，象简历、简介、论文等，这些数据都是以不定长、非固定格式保存的字符型数据。

现有的数据库系统，都是以结构化数据为检索的主要目标，因为实现相对简单。比如数值检索，可以建立一张排序好的索引表，以二分法实现查找，速度很快。但对于非结构化数据，即全文数据，要想实现检索，相对难度要大的很多了。

当然，你也许会说：“这个多简单呀，把全文数据读到内存，然后进行比较查找不就可以了？”。不错，的确是一个很朴素想法。不过最严重的问题是，如果数据库中有1万条，10万条，100万条记录的话，可以想象一下检索所消耗的时间了吧？！如果一个全文数据库系统，对一条检索命令的响应时间超过了半分钟，那么没有用户是能够容忍的了。

因此，全文检索的主要目的，就是实现对大容量的非结构化数据的快速查找。

三、应用领域

现在，随着计算机使用的越来越普及，数据的积累越来越多，全文检索的要求也就越来越迫切了。目前，主要的应用领域是：图书馆数据库、情报数据库、专利数据库、医药数据库、办公自动化、历史资料库、电子出版系统、等等。

四、算法和算法比较

目前，实现全文信息检索的算法有两大基本方案，词索引和字索引。

词索引，以单词为索引单位的检索算法。这个技术是全文检索技术的鼻祖（60年代，就已经有产品问世）。道理很简单，计算机是适合于英语语言环境的，而英语又是以单词为语言要素。说的更通俗一些，就是每个英文单词之间都有一个空格。因此，在对全文数据库建立索引的时候，按照单词划分建立索引，是即简单又自然的。我们国家最开始引入全文检索技术的时候，是汉化英文的数据库系统，因此也就自然使用了词索引技术。但由于中英文环境中语素的不同特点，使得中文必须要解决分词的问题。比如对一句话“我是中国人”，那么必须要切分出“我是中国人”这样的单词形式。如果是人的大脑来进行分词判断，那真是太简单了，只要有小学二年级的中文水平，就足够了。但是，如果想让计算机能够进行分词，却非常困难。计算机分词的大致算法是：由文章切分出段落，由段落切分出句子，由句子切分出短语，然后查找词库，根据动词、连词、形容词再进行切分得到所有的单词。在某些情况下，计算机是根本无法正确进行分词的。下面是计算机自动分词所闹的笑话：

(1)我们要积极地主动作好计划生育工作

计算机愚蠢的分词结果：我们要积极地主动作好计划生育工作

评论：我胡汉三又回来啦

后果：检索“地主”的时候，产生误查结果

(2)吉林省长春市的人民

计算机愚蠢的分词结果：吉林省长春市的人民

评论：我知道了，吉林有个省长叫“春市”

后果：检索“吉林省”的时候，产生漏查结果

因此，词索引的技术难点是分词算法。Oracle 和 Notes 等汉化的数据库系统，虽然也都提供了部分全文检索功能，但都出现了这样或那样的问题。分词算法的提升空间还是有的，需要加入人工智能分析、上下文判断等技术。但还有一个致命的弱点，那就是对地名，人名的判断。

字索引，以汉语单字为索引单位的检索算法。这个也是我推荐的算法，较词索引更适合于中文环境。这也就是为什么英文汉化版的全文检索软件没有占领中国市场的主要原因。（目前，本土民族化的软件，比如手写板，汉字扫描识别，中文全文信息检索......还是比国外的同类产品领先很多的。）但字索引也不是没有缺点，最主要的问题是：

(1)、检索“华人”，会误查出“中华人民共和国”

(2)、检索中药“大黄”，会误查出“大黄缄”，“大黄麻”等完全不同概念的药品。而这些单词在英文中是不会出现错误的，因为根本就是不同的拼写。

字索引的多查错误，也是可以更正的。比如检索“大黄”的同时，也检索“大黄缄”，然后排除“大黄缄”的检索命中点，但这需要付出检索时间的代价。下表，是字、词索引方案各项性能的比较：

索引方式	索引比	索引速度	检索速度	误查	漏查
词索引	0.8 ~ 2.0	慢	快	有	有
字索引	0.3 ~ 2.0	稍快	稍慢	有	无

时间： 2024-11-01 00:27:09

全文信息检索介绍及算法分析的相关文章

PgSQL · 特性介绍 · 全文搜索介绍

背景在日常的数据处理中,我们经常会有这样的需求:从一个文本中寻找某个字符串(比如某个单词). 对这个需求,我们可以用类似这样的SQL完成:SELECT * FROM tbl WHERE text LIKE '%rds PostgreSQL%';(找到含有"rds PostgreSQL"的文本). 现在我们考虑一些特殊的情形: 需要查找的文本特别多,特别大: 不做单纯的字符串匹配,而是考虑自然语言的一些特性,比如匹配某一类字符串(域名.人名)或者匹配单词的所有形式(不考虑它的词性及变化

Solr简单介绍

简介 Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎. 工作方式文档通过Http利用XML 加到一个搜索集合中.Solr 查询该集合也是通过http收到一个XML/JSON响应来实现.它的主要特性包括:高效.灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,

solr教程，值得刚接触搜索开发人员一看(转载：http://blog.csdn.net/awj3584/article/details/16963525)

Solr调研总结开发类型全文检索相关开发 Solr版本 4.2 文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示.拼写检查.搜索建议.分组统计.拼音检索等功能的使用方法. 版本作者/修改人日期 V1.0 gzk 2013-06-04 1. Solr 是什么? Solr它是一种开放源码的.基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中.Solr 提供了层面

自己动手搭建搜索工具

1 Apache Solr搜索服务器简介 1.1. Solr 是什么? Solr它是一种开放源码的.基于 Lucene Java 的搜索服务器,易于加入到 Web 应用程序中.Solr 提供了层面搜索(就是统计).命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式).它易于安装和配置,而且附带了一个基于HTTP 的管理界面.可以使用Solr 的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要.Solr的特性包括: 高级的全文搜索功能专为高通量的网络流量进行的优

Asp.Net2.0中实现多任务异步页的一点提示

asp.net|异步如果想学习Asp.Net2.0的异步页技术,那么一定要仔细阅读http://www.microsoft.com/china/MSDN/library/default.mspx?mfr=true,并且下载它的源代码仔细揣摩.全文共介绍了3种实现异步页的编程模型,且功能一种比一种强大.多余的我就不多说了,直接看最后一种模型:使用PageAsyncTask类.RegisterAsyncTask方法.ExecuteRegisteredAsyncTasks方法和Timeout

Asp.Net 2.0中实现多任务异步页的一点提示

如果想学习Asp.Net2.0的异步页技术,那么一定要仔细阅读http://www.microsoft.com/china/MSDN/library/default.mspx?mfr=true,并且下载它的源代码仔细揣摩.全文共介绍了3种实现异步页的编程模型,且功能一种比一种强大.多余的我就不多说了,直接看最后一种模型:使用PageAsyncTask类.RegisterAsyncTask方法.ExecuteRegisteredAsyncTasks方法和TimeoutAsyncOperation方

Lucene5.3.1 使用的简单实例（待9月更新）

Lucene是一个基于Java的开源全文信息检索工具包. MyTest.Java public class MyTest { /// 存放需要分析的文件的地址 private static String FILE_PATH = "/Users/zoujs/Desktop/test4lucene"; // 存放索引的位置 private static String INDEX_PATH = "/Users/zoujs/Desktop/index4lucene"; @T

聊一聊双十一背后的技术 - 分词和搜索

双十一背后的技术系列文章 <聊一聊双十一背后的技术 - 物流, 动态路径规划> <聊一聊双十一背后的技术 - 分词和搜索> <聊一聊双十一背后的技术 - 强奸式秒杀技术实现> <聊一聊双十一背后的技术 - 毫秒分词算啥, 试试正则和相似度> 云栖聚能聊 - 聊一聊双十一背后的数据库技术标签 PostgreSQL , 分词 , 全文索引 , rum , 搜索引擎 , 双十一 , tsvector , tsquery 背景 2016双十一刚过,大伙还在忙着收快

Kevin Kelly解读人工智能狂热：破解超人类人工智能的五个假设

人工智能正变得越来越热,有时候让人难以分清新闻报道中那些关于超级人工智能的预言到底是可能发生的还是只是单纯的杞人忧天.近日,Wired 杂志创始主编 Kevin Kelly 在 Backchannel 上发表了一篇题为<The AI Cargo Cult: The Myth of A Superhuman AI>的文章,引起了广泛的关注,该文章谈到我们梦想的超人类人工智能可能只是一个神话,其假设的基础还没有任何支持证据.机器之心对该文进行了全文编译介绍. 我听说未来的计算机人工智能会变得比我

猜你喜欢

session的用法具体解说

session|session Session 对象可以使用 Session 对象存储特定用户会话所需的信息.这样,当用户在应用程序的 Web 页之间跳转时,存储在 Session 对象中的变量将 ...

谷歌推出免费诊断公益网站活动

今天谷歌中文网站管理员博客发表官方报道,我们很高兴的宣布我们将举办一次在线的网站诊断活动,Google免费帮你诊断网站,谷歌将会分析一些具体的用户所提交的网站,并给出我们的改进建议,此次网站诊断活动是 ...

用vb创建ActiveX

简介 Edition使创建ActiveX?控键如同创建一般的VB应用程序那样容易.读完本文,你就会看到是怎样的容易. 本文概述了用VISUALBASIC创建ActiveX控键的简单过程.如果你对VI ...

CSS层叠样式表制作可控制的闪烁效果

一段文本或一张图片,它的周围有一圈光晕,这圈光晕每一秒钟闪烁一次,而当鼠标移到上面时,立即停止闪烁,当鼠标移开时又继续闪烁.这种效果用于那些需要特别引起别人注意的内容上(如:警示.报告新增内容等),能 ...

用Spring Web Flow和Terracotta搭建Web应用

Spring Web Flow 引入了几种有状态数据域:request.flash.flow和conversation等,这让你能用新的方式来开发有状态Web应用.它也提供了定制应用状态管理的扩展点. ...

MathType较大较小的增量如何设置

MathType较大较小的增量如何设置 1.按照自己的使用习惯打开MathType公式编辑器,进入到公式编辑界面. 打开软件进入编辑状态 2.在这个编辑界面中,可以先随意编辑出一个字母来看看,然后 ...

讯飞输入法自动更新怎么设置？

讯飞输入法自动更新怎么设置? 讯飞输入法自动更新:可以对输入法PC版更新进行设置,包括有更新时自动为我安装(推荐).有更新时提醒我.关闭自动更新(不推荐),默认有更新时自动为我安装(推荐). 点 ...

wps2012新老界面命令对照表

新版WPS与老版本的WPS用户界面发生了显著的变化.如何快速查找老用户界面中的命令在新用户界面中的位置呢?我经过研究,制成下表,供大家在使用时参考. 经典菜单中命令的位置 2012中命令的位置菜 ...

Win7怎么看电脑是32位还是64位

方法一 1.点击"开始"按钮,就是一般我们关机的时候.会首先想到去点击的那个按钮;看到"计算机",将鼠标指针停留在这三个字样上,右键"计算机" ...

飞信密码怎么修改

飞信密码怎么修改:短信设置方法:编写短信内容为6-16位数的新密码发送至12520050可设置飞信密码,短信按0.1元/条收取,密码可以是英文+数字,不能为中文或全角英文;电脑客户端设置方法:在飞 ...

酷狗音乐怎么全部播放？

酷狗音乐是国内最常用的电脑音乐播放器,既可以作为本地播放器,也可以在线播放高品质音乐,而且酷狗直接大部分音频格式,可以一次全部播放所有歌曲,不需要一个个去选择的,非常好用. 酷狗音乐电脑版支持所有 ...

Windows系统如何使用电源管理降低电脑温度

计算机使用时间过程自身会发热,特别在夏季,使用一段时间后会出现运行程序变慢.卡机等现象,这一现象也是保护计算机稳定性,有什么方法能够快速降温呢?以往我们给win7系统的降温方法都是使用的物理方法, ...

linux-Ubuntu下localhost，127.0.0.1和本机IP都不能访问

问题描述 Ubuntu下localhost,127.0.0.1和本机IP都不能访问全部可以ping通,但是在浏览器,telnet,curl中都不能连接,显示拒绝连接. 解决方案 localhost. ...

RDS最佳实践(四)—如何处理Mysql的子查询

早上值班同事在旺旺群里面贴了一条非常复杂的SQL,用户从本地迁移到RDS Mysql出现严重性能下降,同样的数据和表结构下,在本地的数据库上只要不到1s的时间,但是在rds上好几分钟都没响应. 碰到这 ...

c语言-C语言图书管理系统中出现的问题

问题描述 C语言图书管理系统中出现的问题该系统是采用了细分各个功能模块,分别在main.c文件中调用. 开发环境是Win7,Netbeans8.0.2 这是main.c #include #incl ...

java,比较json中值的大小 , 返回的是键呢?

问题描述 java,比较json中值的大小 , 返回的是键呢? [ { "key": "a", "value": 5 }, { " ...

Bootstrap <基础八>图片

原文:Bootstrap <基础八>图片 Bootstrap 提供了三个可对图片应用简单样式的 class: .img-rounded:添加 border-radius:6px 来获得图片 ...

VUX 2.3.8 发布，基于 WeUI 的 Vue 移动端组件库

VUX 2.3.8 已发布.Vux是基于 WeUI 和 Vue(2.x) 开发的移动端UI组件库,主要服务于微信页面. v2.3.8 更新内容: Checker [enhance] 当前选中 item ...

18个中国作品入围凯度信息之美大赛（附作品展示）

第五届凯度信息之美大赛(Kantar Information is Beautiful Awards)于9月21日公布了入围名单(Longlist).作为已经连续举办了五年的全球数据可视化方面的最主要 ...

Oracle活动会话历史(ASH)及报告解读

对于数据库运行期间的各种状态的实时监控以及相关性能数据捕获对于解决性能问题,提高整体业务系统运行效率是至关重要的.在Oracle数据库中,实时捕获相关性能数据是通过ASH工具来实现的.ASH通过每秒钟 ...

cfont logfont-CFont LOGFONT 固定间距字体按比例调距的字体

问题描述 CFont LOGFONT 固定间距字体按比例调距的字体 CFont 类如何定义固定间距字体和按比列调距的字体?............................ 解决方案 http ...

Remoting或WCF下串口的共用问题

问题描述我用Remoting的Windows应用或WCF的Windows服务建立了一个服务程序,服务程序会访问电脑上的一个串口进行一些读写操作,我测试了一下,按一般的方法去访问串口的话,当有多个客户 ...

千橡关闭人人网分类信息网站临大考

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅近日,千橡集团董事长陈一舟在公开场 ...

《Adobe Acrobat DC经典教程》—第1章1.12节自定义Acrobat工具栏

1.12 自定义Acrobat工具栏默认情况下,Acrobat工具栏中包含了一些经常使用的工具.你可以使用Show/Hide(显示/隐藏)命令来添加经常使用的工具,或者是将这些工具添加到工具栏中的快 ...

数据库中索引字段的选取

问题描述 select * from XXXX where pid=1234 and speed=3 order by lmodify desc 如果根据pid 已经确定了比较小的范围,比如只剩下10 ...

我做这样一个东西有市场吗？(SSH自动配置，代码自动生成)

问题描述就是可以根据数据库表而自动生成struts,spring,hibernate,ibtas的配置文件,以及增删改查代码和页面.好像网上有这样的东西.如果只卖50元,有没有人买啊. 解决方案解 ...

三层加抽象工厂加反射加配置文件加SqlHelper

三层的例子敲的差不多了,为了对抽象工厂有个更好的理解,开始对三层进行加工,下面来对三层进行逐步更新,首先是看一下我画的包图: ...

HTML5 Canvas像素处理常用接口

内容概要:本文通过简单的代码实例,以及略猥琐的图片demo,展示了canvas在图像像素数据操作方面的常用接口.至于如何利用这几个接口实现更复杂的效果,则会在后续章节里继续讲述. 一.canvas图片 ...

ctype.h-c语言关于isalpha(a)使用问题

问题描述 c语言关于isalpha(a)使用问题 #include #include int main() { char a; int x=0,y=0,z=0; while((a=getchar()) ...

百思买中国区总裁周猛：做中国最有效率零售服务商

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 2013年12月18日,南京,五星电器迎来15周年庆典 ...

热搜