数据挖掘----图书馆员应掌握的基本工具

王绿园 康梅英 广州解放军体育学院 510502

  摘 要:本文揭示了在未来数字图书馆中图书馆员进行信息服务的一种方式;论述了数据挖掘和WEB挖掘的基本原理和方法;强调图书馆员应掌握数据挖掘这项新技术的必要性。 

关键词:数据挖掘、WEB、INTERNET、信息服务、图书馆员

  一、引言 

  随着信息时代的到来、INTERNET技术的发展,图书馆未来的功能变得越来越多样化。由于WEB技术的巨大成功,人们越来越多地依靠INTERNET来
获取知识、信息。显然,人们到图书馆的次数和时间已越来越少,总有一天,人们再也不会亲自跑到图书馆去借一本书或咨询某个问题。面临着如此巨大的挑战,从事图书馆工作的人们提出了数字图书馆的设想。经过艰苦的研究已成功地建立了数字图书馆。数字图书馆是一个标准的电子信息基础设施,它采用分布数据存储,用户可以通过各种链接和操作在一个较大的地域范围内搜索和检索出自己所需的信息,而且整个操作对用户是开放的。也就是说,数字图书馆能够把数据存储在多个站点中,用户只须一个简单的操作就可从这些站点中搜索信息。数字图书馆是传统图书馆在信息时代的发展,它不但包含了传统图书馆的功能,还提供综合的信息访问服务。人们希望,数字图书馆将成为未来图书馆的信息中心和枢纽。

  但是,从网络技术角度来看,数字图书馆与其它WEB信息源没有两样,它们都是建立在INTERNET上的信息站点。从用户的角度来看,他们关心的是从INTERNET上获得信息和知识,他们不能体会到你是数字图书馆还是INTERNET上的一般站点。但是要从成千上万的WEB信息站点中检索到有用的信息是不容易的,有时甚至是不可能的,更何况信息的索要者往往没有
多少时间在茫茫的数据海洋中漫游。我们知道在数字图书馆中,图书馆员是信息专家,他们是信息组织者、信息生产者、信息服务者和信息管理者。正是通过图书馆员的信息服务活动使数字图书馆有别于其它信息站点。那么,图书馆员特别是院校图书馆中的图书馆员在二十一世纪的数字图书馆中应如何进行信息服务?图书馆员须掌握什么先进技术工具为用户服务?这是当前图书馆界应该研究的重要问题。

  二、技术的选择 

  WEB是一个非常成功的信息系统。这个系统为信息在全球范围发布和传播提供了机会,它允许任何人在任何地点任何时间传播和获取信息。WEB的非结构化信息传播和获取方式引发了信息爆炸。
大量的非结构化的信息分散在整个INTERNET中。大量信息在给人们带来方便的同时也带来了许多问题:信息过量,难以消化;信息
真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。在信息的海洋中,即使是最先进的 搜索引擎也只能从1/3可以索引的WEB站点中获取信息。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”事实上,作为一个非专业的信息管理人员,要从茫茫的信息海洋中获取本专业最新、最权威知识和较为全面的信息,并从中得到有用的知识几乎变得不可能。要知道,各高等院校或研究所里的专家教授们由于研究课题计划的紧迫,他们急需本专业领域的最新最权威的知识和信息,他们没有时间在成千上万的站点中的数不清的页面中
查找所需的信息。所以在信息的提供者与信息的消费者之间应有一个中间环节,通过这个环节,信息消费者能够快捷方便地得到想要的信息,正是这种迫切需要为图书馆员提供了展现才华的机会。图书馆员们运用信息管理技能,直接为用户提供有用信息。图书馆员们应抓住机会,认真考虑在INTERNET环境中,如何使其服务领域得以扩宽,从桌面咨询服务扩展到基于WEB信息空间电子咨询服务。

  WWW是众多情报类型中的一种,并且具有极大的特殊性。它的信息是分布在全球范围内,并且随时可变。这些分布在各地的信息允许任何人在任何地点任何时间传播和获取信息。为此,图书馆员必须选取某个工具来有效地组织和获取WWW中的信息。传统的搜索引擎根本不评估站点的内容,而只是机械地识别WEB设计者提供的关键字,即使是最优秀的搜索引擎也需要用户亲自访问到不同的站点并对信息加以验证。而WEB挖掘技术是克服这些缺点的最理想的工具。

  三、数据挖掘和WEB挖掘 

  数据挖掘(Data Mining)是信息技术(IT)领域中最热门话题之一。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际
应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。当数据挖掘技术应用于网络环境下的WEB中就成为WEB挖掘(Web Mining),WEB挖掘可以广义地定义为从WWW中发现和分析有用的信息。这个定义有两方面的意义:一方面它描述了自动地从数以百万计的WEB站点和在线数据库中搜索和获取信息和资料,这叫做WEB内容挖掘(Web Content Mining);另一方面,发现和分析用户访问一个或多个站点和在线服务的模型叫做WEB使用挖掘(Web Usage Mining)。

  WEB中的异构型和非结构化的数据,使得发现、组织和管理信息变得非常困难。传统的搜索、索引工具,诸如 Lycos, Alta Vista, WebCrawler, ALIWEB等,虽然它们都能为用户提供一些方便,但它们都不提供结构化数据,也不提供分类、过滤和文档翻译等基本功能。近年来,研究人员正努力研究WEB内容挖掘,开发智能化的信息检索工具。基于代理的检索方法正是这种智能化的信息检索工具,它是一个人工智能系统。它可以代表某一特定用户,自动地或半自动地发现和组织基于WEB的信息,它可以根据用户的基本情况,自动检索出用户感兴趣的信息,并组织和翻译好这些信息。有些代理甚至可以自动学习用户的爱好,并根据用户的爱好为用户检索出相关信息。WEB内容挖掘的另一种方法是基于数据库的方法。这种方法是把WEB中异构的非结构化的数据集成和组织成结构化的数据,就像关系数据库那样,然后用标准的数据库查询机理和数据挖掘技术来访问和分析这些信息。

  WEB使用挖掘(Web Usage Mining)是发现用户访问模型(或称为访问习惯),它的数据是自动从每日的访问日志等中收集到。WEB使用挖掘对建立用户基本情况档案非常关键。研究用户在某个或多个服务器上的行为表现,对
改善WEB站点使其更有效地服务于用户是非常必要的。

  四、信息服务 

  WEB挖掘是一个前景非常看好的工具。我们知道,传统的效率低下的搜索引擎检索出的信息往往索引不完全、有大量的无关信息或没有进行可靠性验证。用户能够快速方便地从WEB中检索出相关的可靠的信息是一个系统的最基本的要求。WEB挖掘不仅能够从WWW的大量的数据中发现信息,而且它监视和预测用户的访问习惯。这样给设计人员在设计WEB站点时有更多的可靠的信息。WEB挖掘技术能够帮助图书馆员在设计站点时朝着方便用户、节省时间和高效率方向发展。WEB挖掘技术为图书馆员进行信息服务提供了先进的工具。有了这个工具,图书馆员能够按照各个用户的要求或习惯,为用户组织更多、更好的高质量信息。

  例如;院校图书馆员们应用WEB挖掘技术为本院校不同学科中的不同研究课题从WWW中检索相关信息。该技术可以自动地检索信息,并把信息按照课题领域进行分类,使它们更容易访问。图书馆员可以通过为不同的课题领域建立一组特征,并以这些特征为基础进行检索和分类,从而保证得到的信息是可靠的和具有权威性的。由于WEB挖掘技术能够自动地,不须人工干预地从WWW中发现和组织信息,从而使图书馆员只需花少量的时间来维护数据库即可完成任务。用户由于不需要花大量的时间来浏览成百上千的文档,就可在相当短的时间里得到想要的信息而感到非常满意。更重要的是,他们可以在任何时间访问到世界任何地方的信息。事实上,这就是图书馆员把他们的咨询服务从桌面转移到INTERNET的具体工作表现。

  五、结束语 

  在未来的数字图书馆中,图书馆员如何充分发挥其信息专家的作用,是我们每个图书馆员应考虑的重要问题。数据挖掘技术是未来信息检索的主要技术。为此,我们图书馆员应该不断地学习新技术、新方法,搞好信息服务工作,努力开拓,争取成为真正的信息专家。

时间: 2024-10-23 01:16:39

数据挖掘----图书馆员应掌握的基本工具的相关文章

数据挖掘----图书馆员应掌握的基本工具-搜索引擎技术

王绿园 康梅英 广州解放军体育学院 510502 摘 要:本文揭示了在未来数字图书馆中图书馆员进行信息服务的一种方式:论述了数据挖掘和WEB挖掘的基本原理和方法:强调图书馆员应掌握数据挖掘这项新技术的必要性.关键词:数据挖掘.WEB.INTERNET.信息服务.图书馆员 一.引言 随着信息时代的到来.INTERNET技术的发展,图书馆未来的功能变得越来越多样化.由于WEB技术的巨大成功,人们越来越多地依靠INTERNET来获取知识.信息.显然,人们到图书馆的次数和时间已越来越少,总有一天,人们再

测试应选择什么测试工具进行学习?

问题描述 测试应选择什么测试工具进行学习? 女生,想转测试,但是不知道从何学起,现在的工作类似于实施 解决方案 做测试?游戏测试还是应用测试,建议学学压力测试工具比如tomcat,jemter等工具,然后掌握shell脚本 解决方案二: 看你做什么测试了,白盒还是黑盒,有很多成熟的测试工具,可以学习下使用方法,比如VU 解决方案三: C++Test,收费软件,用的还是比较多的 解决方案四: QTPLoadRunner等等!

进行数据挖掘的8个最佳开源工具

数据挖掘,又称为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤,是一个挖掘和分析大量数据并从中提取信息的过程.其中一些应用包括市场细分 - 如识别客户​​从特定品牌购买特定产品的特征,欺诈检测 - 识别可能导致在线欺诈的交易模式等.在本文中,我们整理了进行数据挖掘的 8 个最佳开源工具. 1.Weka WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理

空间数据挖掘技术理论及方法

数据  空间数据挖掘技术理论及方法葛继科 (西南农业大学信息学院 400716)   摘要  本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点,分析了空间数据挖掘技术的层次.方法,并重点介绍了当前常用的分类.聚类.关联规则等空间数据挖掘方法,指出了当前空间数据挖掘技术中尚需解决的问题.发展趋势及方向. 关键词 空间数据挖掘 分类 聚类 关联规则 0 引言 地理信息系统(Geographic Information System,简称GIS)是计算机科学.地理学.测量学.地图学等多门学科

基于多维度数据挖掘的电子渠道精准服务-营销模型研究

随着电信市场竞争越发激烈及移动互联网时代的来临,客户对业务的需求日趋多样化和差异化,对运营商服务的质量也提出了更高的要求:另一方面,运营商自身各系统中的大量数据通过精细化模型挖掘必将在分析用户行为.精确识别客户业务需求.开展精细化服务营销方面发挥巨大作用.基于以上两点,本文以客户细分理论与数据挖掘理论为基础,创新性地构建了基于客户业务与价值.客户电子渠道行为及客户基本属性等多维度数据的电子渠道精准服务营销模型,为运营商开展电子渠道精准服务营销提供了决策分析工具.   一.电子渠道精准服务-营销模

数据挖掘在医学上的应用

本篇将再多讲一讲数据挖掘在医学上的应用,希望能对感兴趣的朋友有所启发,也供从事其他行业数据挖掘应用的同仁参考. 数据挖掘,又称知识发现(KDD),是从大量的数据中抽取潜在的.有价值的知识的过程.数据挖掘所探寻的模式是一种客观存在的.但隐藏在数据中未被发现的知识.例如,数据挖掘可直接挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维实验室指标变量的异常等等.再如,在科研设

七个不用会后悔的APP设计工具

中介交易 SEO诊断 淘宝客 云主机 技术大厅 现如今,各式各样的新应用层出不穷,想要设计一款优秀的应用并脱颖而出除了要有一个好的创意,更需要一些功能强大又好用的工具来实现这个创意,比如下边这7个web设计工具就非常值得一试. FileSquare FileSquare是香港开发和设计团队Oursky推出的设计作品反馈意见收集平台,你只需将自己的设计图上传到FileSquare网站并在需要指导的地方给上链接,其他设计师和开发者或是用户就能看到完整的产品,他们可以在认为需要修改的地方添加注释,给你

[MySQL]命令行工具和基本操作

原文:[MySQL]命令行工具和基本操作   一 MySQL命令行工具  (查看帮助 ---help,或 -?)   1)MySQL MySQL是一个简单的SQL外壳(有GNU readline功能).它支持交互式和非交互式使用.当交互使用时,查询结果采用ASCII表格式.当采用非交互式(例如,用作过滤器)模式时,结果为tab分割符格式.可以使用命令行选项更改输出格式.如果由于结果较大而内存不足遇到问题,使用--quick选项.这样可以强制MySQL从服务器每次一行搜索结果,而不是检索整个结果集

数据科学和机器学习工具和语言最新动态

文章讲的是数据科学和机器学习工具和语言最新动态,第18届年度KDnuggets软件投票又一次受到了分析.数据科学界和软件生产商的热情参与.与去年相似,约有2900人参与了此次投票.最近几年,Python的使用增长率一直比R快,到今年,Python终于以微弱的优势超过了R的使用率 (52.6% Vs 52.1%).然而最大的惊喜应该是深度学习工具的广泛共享和使用.2017年深度学习有32%的使用率,而在2016年只有18%,2015年9%.谷歌Tensorflow迅速成为深度学习平台的领头者,以2