《中国人工智能学会通讯》——12.47 分类型数据聚类有效性

12.47 分类型数据聚类有效性

聚类结果的有效性评价是聚类分析中的一个重要组成部分。不同聚类算法或同一算法不同参数设置往往在聚类同一数据时会产生不同的结果。因此,人们需要聚类有效性函数去评价聚类结果,并从众多聚类结果中寻找最适合于数据的一种划分。对于分类型数据而言,k-modes 优化目标函数[31] 、分类效用函数[32]和信息熵函数[12]是三个广泛使用的有效性评价函数。k-modes 优化目标函数是由 Huang在 1997 年提出,该目标函数是对 k-means 优化目标函数的扩展。通过使用“mode”代替“mean”,用简单匹配相异测度代替欧式距离。该目标函数能够最小化类内对象与类中心的距离和。基于目标函数,Huang 提出了 k-modes 聚类算法通过迭代优化方法求得该目标函数的局部最优解。此外,若干个改进 k-modes 聚类算法也被提出[33] 。分类效用函数是 Gluck 和 Corter 提出的[33] ,该函数试图最大化同类对象拥有相同特征和异类对象拥有不同特征的概率。COBWEB 增量算法[7]就是一种典型的以分类效用函数为目标函数的聚类算法,该算法试图通过最大化分类效用函数得到一个最优的聚类结果。

Mirkin [34] 采用分类效用函数去处理混合数据的聚类。信息熵函数是将信息理论应用到聚类评价中,用信息熵去度量类内属性值分布的差异性。以信息熵为聚类目标函数的聚类算法有 COOLCAT 算法[12]和 ACE 算法[14]等。这些算法试图通过最小化信息熵函数来获得一个最优的聚类结果。以上三种不同优化目标函数都从不同角度对聚类结果进行评价。如果将这三个评价函数去评价同一个聚类结果时,需要解决下面 3 个问题:① 三个目标函数有怎样的共性和差异性?② 类间信息是否被忽略?③ 以三个目标函数其中之一为聚类准则,如何确定该准则在一个给定数据集上的取值范围?针对上述问题 , Bai et al [35] 从解空间(优化)角度,构建了一个广义的有效性函数及其优化模型,理论分析发现在评价聚类结果时,分类效用函数等效于信息熵函数,k-modes 目标函数的最优解是分类效用函数的近似解,最小化广义有效性函数等于最大化某一类间分离函数。这表明使用这些类内信息评价聚类结果时,并不会忽略类间信息。对于一个给定的数据集,通过放宽某些变量的约束条件,将这些有效性函数最大化和最小化优化问题转化为凸规划问题,获得其上下界,进而实现函数的归一化。该研究成果为解决分类型数据聚类准则的选择,以及聚类算法的互学习对聚类有效性的影响等问题提供了理论基础。

时间: 2024-09-17 01:37:17

《中国人工智能学会通讯》——12.47 分类型数据聚类有效性的相关文章

《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

12.43 分类型数据聚类算法研究进展 在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] .在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] .比如,在问卷调查中,客户的兴趣爱好.家庭住址.教育情况都是分类型变量:在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件:在医学中,一个病人受伤的程度可分为轻微的.中度的和严重的:在市场营销中,经常将客户分为高.中.低

《中国人工智能学会通讯》——12.44 分类型数据的定义

12.44 分类型数据的定义 设 X={x 1 , x 2 , -, x n } 表示 n 个对象组成的一个数据集,其中 x i =(x i1 , x i2 , -, x im ) 表示由 m 个属性A={a 1 , a 2 , -, a m } 描述的第 i 个对象.x ij (1 ≤ j ≤ m)表示对象 x i 在第 j 个属性上的取值.表示对象集 X 在第 j 个属性上的值域.对于任意的 s V j ,t V j ,如果 s和 t 之间有无穷多个其他取值,则称 V j为数值型数据 (nu

《中国人工智能学会通讯》——12.49 结束语

12.49 结束语 近年来,分类型数据的聚类分析技术已经获得了长足的发展,在市场营销[43] .生物信息学 [44-45] .软件系统分析[46]等领域得到了广泛的应用.分类型数据的聚类算法也成为聚类集成学习的一种有效工具[47] .而如此广泛的应用又吸引了越来越多的研究者的兴趣[48-49] ,推动了分类型数据聚类的进一步发展. 我们认为,在未来关于分类型数据聚类有如下问题值得进一步研究与思考. (1) 分类型集值数据聚类算法:通常分类型数据中一个对象在每个分类变量上仅有一个属性值.在实际应用

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智