专家答疑:虚拟世界中的动态能力规划

  1.数据挖掘定义与分类

  数字档案馆,作为传统实体档案馆在信息时代的新型组织形式,是实体档案馆在信息时代不断创新和发展的必然,是迎接知识经济时代挑战,拓展传统实体档案馆功能,满足用户需求,提供个性化、多样化服务的关键,也是提高社会档案意识的新契机。那么,如何从数字档案馆浩如烟海的大量数字化资源中提炼、挖掘出有价值的,对数字档案馆进行知识积累、知识创新有着数据支撑作用的有效信息,这是未来数字档案馆建设所面临的重要课题。数据挖掘技术正是解决这一难题的有效途径,数据挖掘是当今计算机领域的热点,其成果也广泛应用于图书情报领域,笔者受这些研究的启发,力图就数据挖掘技术在基于知识管理的数字档案馆中的应用进行探讨。

  1.数据挖掘定义与分类

  1.1数据挖掘的定义

  数据挖掘是一门很广义的交叉学科,脱胎于计算机,虽然已应用到诸多领域,图书、情报界的实践也已经充分验证其价值,但在档案界,数据挖掘仍然被当成深奥的技术和理论,很多档案工作者对个这概念还是云雾迷蒙,比较模糊。那么什么是数据挖掘呢?数据挖掘(Data Ming),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程①。这个过程的目的是为了发现隐藏在大量数据泥沙中的 “知识金矿”,因此,将数据挖掘定义为“数据中的知识挖掘”更为恰当②。所以,数据挖掘也被人称为知识挖掘、知识抽取等。

  1.2数据挖掘的分类

  数据挖掘可以根据挖掘任务的不同,把数据挖掘方法分为概念描述、关联分析、分类分析、聚类分析、偏差检测等多种类型,具体如下:

  1.2.1概念描述(Concept description)

  就是通过分析和比较,将某类相互关联的数据进行汇总,归纳出此类对象的相关特征,对关于此类的大量信息进行描述,这些描述是抽象的,有意义的。它的类型有两种:特征性描述和区别性描述。1)特征性描述适用于描述某类对象的共同之处,例如,某档案馆的档案数据库中存在大量的用户基本信息,其中涉及:姓名、年龄、工作、利用喜好等信息,如果对历史研究者进行描述,很有可能得出以下结果:以高校教师、学生为主,以编修各种志书、撰写史学研究文章为目的。2)区别性描述,用于描述两个或多个类对象之间的差异,例如,对企业用户和历史研究者特征进行比较,也许能得出以下规则:主要利用生产管理和科研管理方面的档案信息,以取得一定经济效益和社会效益为目的。

  1.2.2关联分析(Association analysis)

  就是描述数据库中数据项之间存在的相关特性,即挖掘出隐藏在数据项之间的相互关系,具体来说,若其中两项数据或多项数据存在着某种关联,其中一项数据就能依据其它数据进行预测。关联分析能发现用户利用不同档案信息之间的关联,分析预测用户利用模式。

  1.2.3分类分析(Classification analysis)

  就是将数据库中的数据有序的聚合在一起,有助于人们对事物的全面把握③。分类分析可分为结构化数据分类分析,如关系数据库中的数据,和非结构化数据分类分析,如文本数据。分类分析的具体过程为:用一组特征不同的类别为一个数据集合中的数据进行分类,然后找出描述这些数据的模型,并根据这个模型将数据划分到不同的类别中,利用这个模型可以预测未知的数据。分类分析可以通过已有用户档案数据库中的数据,揭示用户特征和用户利用行为之间的关系,并按照影响用户行为的程度对这些数据进行分类,用来预测未来的用户行为。

  1.2.4聚类分析(Clustering analysis)

  就是将数据库中的数据划分为不同数据类的过程,它与分类分析不同,前者是在预先不考虑已知分类模型的情况下,把数据放入不同的分类中,聚类的目的是根据最大化类内的相似性,最小化类间的相似性这一原则合理的划分数据集合④,简单来说就是使类内的差别最小化,类间的差别最大化,这样就可以把类似的数据组织在一起并导出某种规则。

  1.2.5偏差检测(Deviation detection)

  就是通过发现数据库中的异常情况对偏差的数据进行分析的过程,重点是发现数据中的异常变化,数据库中的数据变异可能是人为错误引起的,更有可能是数据更新等自然变化的结果。偏差检测的意义在于可以有效排除大量不相关的数据。例如,某档案馆在形成某种编研成果之前,先在用户信息数据库中进行检索,并与档案馆数据库中的已有资源结合,再用数据挖掘技术将不想关的用户利用模型排除,把剩下的作为重点,制定有针对性的编研策略。

  2.基于知识管理的数字档案馆中的数据挖掘

  前面已经介绍了数据挖掘的概念及模式,那么基于知识管理的数字档案馆的数据挖掘应该是怎样的呢?笔者认为首先应对数字档案馆资源、知识管理和数据挖掘的关系定位。数字档案馆的知识资源要被组织和发现,这是数字档案馆实现现代化科学管理,提供快捷、优质服务的基础。对数字档案馆实施知识管理是应对知识经济时代挑战,最大化数字档案馆知识资源潜力,最终实现数字档案馆知识创新的必然要求。没有实施知识管理的数字档案馆无法满足未来发展的需要,缺乏管理对象的知识也成了无源之水。数据挖掘是组织和发现数字档案馆中知识资源的有效途径,为数字档案馆实施知识管理创造了条件,是两者得以无缝链接的承上启下阶段。这里的数据挖掘不能看成是纯粹的信息处理技术,它是对信息处理技术集群进行协调和管理的方法和策略。基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础,立足于多种信息技术的协调和配合,以实施挖掘算法和挖掘模型为手段,以组织和发现数字档案馆中已存在的知识资源,为实施知识管理提供管理对象为目的,让数字档案馆有效利用知识,实现知识创新的过程。

  3.基于知识管理的数字档案馆中的主要挖掘对象

  3.1数字档案馆中的固化资源

  这是存在于数字档案馆中的显性知识,即记录于一定物质载体上的知识⑤,包括:已数字化的馆藏资源、现行电子文件、检索工具、编研成果,与数字档案馆工作相关的各种法律法规、规章制度、行业标准等,围绕数字档案馆建设所产生的研究成果、技术资料及有助于数字档案馆发展的其它相关知识。

  3.2数字档案馆中的智力资源

  这是存在于数字档案馆中的隐性知识,是存在于档案馆行政管理人员、政策法规研究人员、信息技术人员、对外协调人员等头脑中所储备的大量非编码智力资源,包括:各种管理方法、计算机处理技术、处理问题的能力等。由于人是知识管理的核心,是知识管理中最活跃的最主动的因素⑥,所以对这部分知识的挖掘也是数字档案馆知识挖掘的重点。

  3.3用户利用行为信息

  用户的利用行为信息包括两方面,利用信息和反馈信息。利用信息是用户为了解决现实问题,满足学术、科研、生产等需求,在实施具体利用行为时所产生的信息,包括:访问内容、访问频率、访问时间等,它们反映出用户对数字化资源的个性化、多样化需求及利用规律。反馈信息是在档案利用这一连续活动中,档案利用者发现的问题和情况、提出的要求、意见、评价和效益等⑦。对这些数据的挖掘,可用于对用户未来利用趋势的分析预测,以及提出在此基础上的管理决策,为提高数字档案馆的服务水平提供依据。

  4.数据挖掘过程

  如图所示,在数字档案馆的运行过程中,一旦确定某个主题,首先就要对这个主题进行定义,明确数据挖掘的要求和目的,在对问题进行定义的同时,对档案中的显性知识和隐性知识进行收集提取,并对其进行概念描述归纳出需求的相关特征,通过聚类分析,按照相似性和差异性形成不同的需求分类模型,并把数据放入不同的分类中,通过需求分类模型与用户利用信息的结合,进行差异分析和偏差检测,排除大量不相关的数据,形成挖掘结果。之后便对挖掘结果进行评价,形成的挖掘结果有可能存在无关的数据,也有可能不满足需求,如果不符合挖掘要求和目的,整个数据挖掘过程就要退回到数据收集阶段,并重复挖掘过程,这可以用“if not…then”规则来进行描述,反之则达到数据挖掘要求,能为数字档案馆知识管理所用,并充实到原有数据库中,实现档案馆的知识创新。

  5.数据挖掘时应注意的问题

  5.1数据挖掘方法的选择

  由于数据挖掘方法功能的各不相同,所以要针对挖掘需求和目标,采用适合的模式和算法,特别是在对多个数字档案馆进行跨馆、跨库挖掘的时候,各馆可能采用不同的数据库系统内核,如ORICLE、SQL SERVER、DBII等等,且各馆馆藏内容也大相径庭,所以在进行数据挖掘的时候应立足于所处的数字化馆藏环境,在方法的选择上有的放矢,不能一概而论。

  5.2数据挖掘结果的准确性

  即对数据挖掘质量的控制问题。数字档案馆数据库中涉及大量的数据信息,在这些海量数据面前,不可避免的会出现冗长,甚至错误的数据,所以在进行数据挖掘时,应根据数据挖掘任务的不同,选择适合的挖掘类型和算法,并对出现的错误数据进行修正、处理、加工,为档案馆提供科学合理的各种分析报告和相关预测信息,指导档案馆工作人员采取正确手段,并为档案馆改进服务、作出决策提供智力支持。

  5.3用户隐私的保护

  档案馆利用数据挖掘技术优化服务,提高管理水平的同时,也不可避免的增加了侵犯用户隐私权的可能性,因为用户在利用数字档案资源的过程中涉产生大量的个人信息,这些信息包括:用户的姓名、工作、学历、兴趣等,它们一旦被其它别有用心的人所获取,用户就有可能受到,进而造成用户对档案馆的反感,影响到用户的二次利用,所以档案馆应该妥善保管这些信息,建立有效的隐私保障机制,不能在未得到用户授权的情况下将他们的个人隐私泄漏出去。

  5.4人力资源的保障

  数据挖掘脱胎于计算机领域,要在基于知识管理的数字档案馆中实施数据挖掘必然离不开优秀的计算机专业人员和管理人员,但只强调专业技术,忽视对其业务技能的培养,也会制约数字档案馆的发展,所以在数字档案馆建设过程中,需要加强对专业技术人员的档案知识补充,同时调整档案馆管理人员的知识结构,使他们尽可能的掌握必要的网络、数据库基础知识。

  从实体管理到信息管理,从信息管理到知识管理已是档案馆发发展的不可逆转进程,基于知识管理的数字档案馆是档案馆发展的必然组织形式。数据挖掘可以快速有效地分析和处理来自数字档案馆内外的海量数据和信息,使隐性知识显性化,显性知识结构化,为数字档案馆的科学管理和服务水平的不断提高提供了有力支持,使档案馆向着知识化的方向发展,随着信息技术的不断深入和挖掘算法的不断改进,数据挖掘必将与数字档案馆的知识管理结合得更加紧密,显现出更加强大的生命力。(档案学通讯) 

时间: 2024-08-03 22:59:31

专家答疑:虚拟世界中的动态能力规划的相关文章

《圣殿祭司的ASP.NET4.0专家技术手册》----2-3 C# 4.0静态基础融入动态能力

2-3 C# 4.0静态基础融入动态能力 圣殿祭司的ASP.NET4.0专家技术手册 在了解静态与动态语言后,大家直觉上可能会以为这是二元的对立,非黑即白,不是静态语言,就是动态语言.但您是否想过静态和动态之间是可以兼具或混合的可能性?例如,静态语言为获取动态语言优点,而融入了一些动态语言的功能,然后又保持静态语言的优势,如类型安全.优化.高效率. 是的,.NET 4.0正是以这个方向去改造,在原本C#.VB静态语言基础上,加上动态语言的一些特性与优势,这样就达到以静态为主,动态为辅之目的,让C

聊一聊双十一背后的技术 - 物流, 动态路径规划

双十一背后的技术系列文章 <聊一聊双十一背后的技术 - 物流, 动态路径规划> <聊一聊双十一背后的技术 - 分词和搜索> <聊一聊双十一背后的技术 - 强奸式秒杀技术实现> <聊一聊双十一背后的技术 - 毫秒分词算啥, 试试正则和相似度> 云栖聚能聊 - 聊一聊双十一背后的数据库技术 标签 PostgreSQL , 物流 , 路径规划 , LBS , PostGIS , Greenplum , 最短路径 , 双十一 , 地理位置信息 , 快递 , 菜鸟物流

[WPF疑难]在WPF中显示动态GIF

在我们寻求帮助的时候,最不愿意听到的答复是:很抱歉,在当前版本的产品中还没有实现该功能... 在WPF中显示动态的GIF图像时便遇到了这样的问题,WPF中强大的Image控件却不支持动态的GIF(其只能显示第一帧).当然,我们可以说WPF强大的动画能力,让我们完全有理由抛弃传统的GIF动画,但如某种情况下如果你觉得使用动态的GIF更合适的话(比如QQ表情,因为GIF是利于保存和传输的),没关系,本篇随笔将帮助你解决这个问题. 1,曾有过的尝试: 我们在实际开发过程中也遇到显示动态GIF的问题.发

【mybatis深度历险系列】mybatis中的动态sql

最近一直做项目,博文很长时间没有更新了,今天抽空,学习了一下mybatis,并且总结一下.在前面的博文中,小编主要简单的介绍了mybatis中的输入和输出映射,并且通过demo简单的介绍了输入映射和输出映射,今天这篇博文,小编主要来简单的介绍一下mybatis中的动态sql,有的小伙伴会问,既然有动态sql,那是不是也应该存在静态sql,答案是肯定的.那么什么是静态sql呢,静态sql语句一般用于嵌入式sql应用中,在程序运行之前,sql语句必须是确定的,例如sql语句中涉及的列名和表名必须是存

Faketown——虚拟世界中的整合营销平台

目前,营销商们对于"第二人生" (Second Life)都有不同地感受.有些营销商因为通过参加"第二人生"营销大会了解了如何在虚拟世界里作广告而欣喜万分,而有些营销商则对它的价值产生了怀疑,并认为自己盲目跟随了那些大公司的广告促销手段. 其实我们真正需要的是一种能够在一个小型的.低成本少投入的虚拟世界中进行营销效果的试验,而Faketown.是最恰当的地方. Faketown基本是由社区网站中的部分聊天功能和类似于"虚拟人生"(The Sims

link中使用动态算子实现排序的机制是什么,怎么样能优化?

问题描述 link中使用动态算子实现排序的机制是什么,怎么样能优化? link中使用动态算子实现排序的机制是什么,怎么样能优化? 解决方案 使用dynamic其实是运行时反射,要想效率高,用查询表达式,google MakeMemberAccess LINQ

解决tableView中cell动态加载控件的重用问题

解决tableView中cell动态加载控件的重用问题 tableView的cell,有时候需要在运行时取得对应的数据后才能够动态的创建该cell中的控件并加载到该cell中,此时,你一定会遇到重用问题,即使你能做到该cell只根据数值加载了一回控件,你也没法保证不出现重用问题:) 效果(请注意查看,移动下面的格子时,上面出现了重用的问题) 源码: YXCell.h // // YXCell.h // YXTableView // // Copyright (c) 2014年 Y.X. All

ASP3.0中的流控制能力一[转]

asp3|控制 随着PHP4.0和JSP技术的推出以及IIS中不断出现的重大的安全问题,MicroSoft的ASP的市场仿佛是变的狭窄了,但是MicroSoft是不会轻言放弃的,于是在ASP2.0的基础上推出了ASP3.0,增加了一些新的功能:新的流控制能力.Data Shaping技术(请参考:http://www.aspcn.com/showarticle.asp?id=28).无脚本 ASP .更多的组件选择.xml的支持.脚本组件.ASP脚本代码的加密技术等等.其实笔者认为没有多大的改变

PHP4中实现动态代理

动态 一. 摘要本文简单阐述了Proxy模式及具体说明了如何在PHP4中实现动态代理, 本文只是给出了一个实现的方法的原型. 由于水平有限, 有任何意见和建议请反馈给Binzy [ Binzy at JustDN dot Com ]. 二. 概述在我们开始实现Dynamic Proxy之前, 也许我们应该先了解一下什么是Proxy和它有什么用. 下面是一篇来自博客堂加菲猫的不错的形象讲述Proxy的文章: "武当学艺与缓存代理". Proxy模式是"GoF"介绍的2