数据挖掘的研究现状

一、时代的挑战

近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。

特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如加拿大BC省电话公司要求加拿大Simon Fraser大学KDD研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。美国著名国家篮球队NBA的教练,利用某公司提供的数据挖掘技术,临场决定替换队员,一度在数据库界被传为佳话。

这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力 ,比数据库查询更为强大。同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此DMKD的研究成果很讲求实际。1997年第3届KDD国际学术大会上进行的实实在在的数据挖掘工具的竞赛评奖活动 ,就是一个生动的证明。最近,还有不少DMKD产品用来筛选Internet上的新闻,保护用户不受无聊电子邮件的干扰和商业推销,受到极大的欢迎。

二、研究现状

KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

1997年亚太地区在新加坡组织了第一次规模较大的PAKDD学术研讨会,很有特色。今年将在澳大利亚墨尔本召开的PAKDD’98已经收到150多篇论文,空前热烈。

此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的Knowledge and Data Engineering 会刊领先在1993年出版了KDD技术专刊,所发表的5篇论文代表了当时KDD研究的最新成果和动态,较全面地论述了KDD系统方法论、发现结果的评价、KDD系统设计的逻辑方法,集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题,KDD系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及相应的基本对策。6篇论文摘要展示了KDD在从建立分子模型到设计制造业的具体应用。

不仅如此,在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,如要免费订阅,只需向http://www.kdnuggets.com/subscribe.html发送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库 ,供人们测试和评价。另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版 ,可向dstrial@tgc.com提出免费订阅申请。在网上,还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论DMKD的热点问题。

至于DMKD书籍,可以在任何计算机书店找到十多本,但大多带有商业色彩。笔者建议感兴趣者可读一读由美国AAA/MIT在1996年出版的《Advances in Knowledge Discovery and Data Mining》一书。当前,世界上比较有影响的典型数据挖掘系统有Cover Story、EXPLORA、Knowledge Discovery Workbench、DB Miner、Quest等。

三、内容和本质

随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或时尚,数据库界目前除了关注分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库实质的应用仅仅是查询吗?理论根基最深的关系型数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人;数据只为职员服务,不为老板服务!这是很多单位的领导在热心数据库建设后发出的感叹。

时间: 2024-09-20 00:35:42

数据挖掘的研究现状的相关文章

《中国人工智能学会通讯》——12.20 核心研究问题与研究现状任务分配

12.20 核心研究问题与研究现状任务分配 任务分配指时空众包平台根据任务和参与者的时空属性和其他相关信息,为每个任务分配适当的众包参与者.现存研究根据不同应用场景下任务分配的具体需求,通常采用二分图匹配模型和任务规划模型这两种算法模型对该问题进行建模. (1)基于匹配的分配模型 在每次为众包参与者分配一项任务的应用场景下,如滴滴出行等专车类服务,可使用基于匹配的分配模型.具体而言,该模型将任务分配问题规约为最大化或最小化加权二分图匹配问题[20] .根据任务实时性要求的差异,该模型又可分为静态

《中国人工智能学会通讯》——11.32 国内外研究现状

11.32 国内外研究现状 迁移学习最初是在 1995 年举行的 NIPS 神经信息处理系统进展大会"Learning to Learn"研讨会上由卡耐基梅隆大学 Tom Mitchell 等人提出,并迅速发展起终身学习.归纳迁移等多个学习范式,其中发展最快的是多任务学习[6] ,已成为具有严格理论保证的迁移学习方向.随着迁移学习研究的进展,2005 年美国国防部国防高等计划研究署(DARPA)赋予了迁移学习新的研究使命:学习系统应具备将过去任务学习的知识和技能应用于新任务的能力.此后

《中国人工智能学会通讯》——2.9 国内外研究现状

2.9 国内外研究现状 腿式机器人的研制 从上世纪 50 年代开始,各国科学家开始致力于腿式机器人的研究,希望在借鉴腿式动物的骨骼结构.肌腱驱动.运动特点和控制模式等基础上,研制出运动能力强.环境适应性好和能量效率高的腿式仿生机器人. 在双足机器人研究领域,目前最具代表性的双足机器人主要集中在日本和美国.日本本田公司2000 年发布了双足机器人 ASIMO [1] ,其最新版本身高 130 cm,体重 48 kg,最高运动速度 9 km/h,可以步行.奔跑.跳跃,甚至上下楼梯和微不平整地面行走,

《短文本数据理解(1)》一1.2 短文本理解研究现状

1.2 短文本理解研究现状 1.2.1 短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表

《 短文本数据理解》——1.2短文本理解研究现状

1.2短文本理解研究现状 1.2.1短文本理解模型概述 本节根据短文本理解所需知识源的属性,将短文本理解模型分为三类:隐性(implicit)语义模型.半显性(semiexplicit)语义模型和显性(explicit)语义模型.其中,隐性和半显性模型试图从大量文本数据中挖掘出词与词之间的联系,从而应用于短文本理解.相比之下,显性模型使用人工构建的大规模知识库和词典辅助短文本理解. 1隐性语义模型 隐性语义模型产生的短文本表示通常为映射在一个语义空间上的隐性向量.这个向量的每个维度所代表的含

《中国人工智能学会通讯》——4.6 研究现状及关键技术

4.6 研究现状及关键技术 在大部分基于路网的空间关键词查询研究中,路网以有向图的形式表示,即 G=(V,E),其中 V 表示路网中的交叉结点或者根据计算需要人为引入的结点:E 表示连接结点与结点之间的有向边.城市空间文本数据则由大量带有位置属性和文本属性的空间文本对象(Spatio-Textual Objects)组成.空间文本对象可以是物理世界中的实体对象,如商店和公共设施:也可以是各类和实体对象相关联的虚拟对象,如针对实体对象的广告和网络评论.每个空间文本对象表示为 o=(loc, t),

《中国人工智能学会通讯》——4.14 相关研究现状

4.14 相关研究现状 鉴于卷积神经网络在应用中表现出的优异性能,近年来很多研究工作都着力于挖掘这一种多层次模型的巨大潜能,尤其是对那些应用于大数据集图像分类的网络模型[2] .而这些改进的 CNN 算法则可以被粗略的分为以下四类. 第一类算法使用随机化的正则方法,它们在训练过程中引入随机性,从而减少模型对训练样本的过拟合,提高模型的泛化能力.Dropout [6] 方法是这个领域内第一个被提出和广泛应用的算法.在每一轮训练迭代中,被应用了 Dropout 的神经层会随机剔除一半神经元.因此,D

《敏捷制造——敏捷集成基础结构设计》——1.2相关问题的国内外研究现状

1.2相关问题的国内外研究现状 1.2.1 敏捷化理论及其研究现状 敏捷企业概念是与敏捷制造概念一起提出的.美国国会委托里海大学(Lehigh University)的lacocca研究所和美国13家大公司联合研究编写了一份"21世纪制造业企业战略"(21st Century Manufacturing Enterprise Strategy)报告[R04],首次提出了"敏捷制造"(Agile Manufacturing)和"敏捷制造企业"(Ag

《中国人工智能学会通讯》——5.2 国内外研究现状

5.2 国内外研究现状 飞机数字化智能制造技术 世界航空发达国家的飞机自动化智能制造技术,已从由单台数控自动钻铆机和数控托架组成的自动钻铆系统,向由自动化装配工装.模块化加工单元.数字化定位和检测系统.复杂多轴数控系统和离线编程与仿真软件等组成的自动化装配系统发展,大部分基于 CATIA 平台进行设计,保证了装配系统与飞机产品的数字化协调[3] .国外大型飞机自动化智能制造技术基本上按产品的结构形式和特点来发展,发展的自动化装配系统主要有柔性机翼壁板装配系统.柔性翼梁装配系统.复合材料升降舵柔性