《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

12.46 分类型数据流聚类算法

在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控、股票市场、信用卡欺诈检测、网站点击流和超市的客户交易等。由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化。比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式。针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] 。

针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui et al [25] 提出了一个 Web 用户挖掘框架,并且能够从一个真实网站的 Web 日志文件中发现用户的使用模式。Chen etal [26] 提出了一个分类型数据流的聚类框架,该框架在不同的滑动窗口下检测漂移的概念,并且基于当前窗口产生聚类结果,通过可视化对不同窗口聚类结果之间的关系进行展示。然而,在这个框架中,需要设置太多的参数增加了在不同应用中的困难。Cao et al [27-29] 基于滑动窗口技术和粗糙集的隶属函数、概念的上下近似,定义了两个概念间的距离,提出了概念漂移检测算法和数据标签算法,设计了可视化算法去观察不同滑动窗口下聚类结果的演化过程,实验结果表明,提出的框架不但能精确地检测到概念漂移 , 而且能提供高质量的聚类结果。此外,用户能通过可视化方法跟踪用户感兴趣类的演化趋势。但以上提及的这些方法仍面临如下两个问题:① 将新到达的数据子集聚类问题看作类标记问题,仅使用对象和类之间的相似性来确定到达对象的类标签。由于缺乏有效性标准和优化策略,无法去调整或优化聚类结果。② 聚类优化函数和漂移概念检测指标之间缺乏关联性,这样可能忽略聚类结果有效性对漂移概念检测的影响。对于新到达的数据子集,当它的聚类结果很差时,漂移概念检测结果可能是不正确的。为了克服这些问题,Bai etal [30] 建立了一个优化模型来解决分类型数据流的聚类问题,该模型充分考虑了类代表的确定性和前后相连时刻聚类结果的连续性。基于该优化模型,获得了一个概念漂移检测指标。理论分析发现,最小化目标函数等同于最小化漂移检测指标的值。通过融合检测指标和优化模型,提出了一种新的方法去捕获分类型数据流上的聚类结构的演变趋势,该方法可以有效地避免聚类有效性对概念漂移检测结果的影响。通过真实数据集,展示了提出的聚类优化算法的有效性。

时间: 2024-08-04 22:20:54

《中国人工智能学会通讯》——12.46 分类型数据流聚类算法的相关文章

中国人工智能学会通讯——一张图看懂BP算法 1.1 引言

1.1 引言 神经网络是实现人工智能的重要途径之一.近年来,深度神经网络在语音识别.图像理解.自然语言处理.智能博弈.智能医疗等领域内的大数据问题上取得一系列重大突破,引起了人们对神经网络的极大兴趣,并引领人工智能蓬勃向前发展.反向传播(backpropagation,BP)算法是深度神经网络最基本的算法之一,对深度神经网络的发展起着十分重要的作用,已成为深度神经网络理论的一个无可厚非的基石. BP算法的关键是反向计算敏感性,通过巧妙利用数学分析中求偏导数的链式法则,将敏感性反向传播,在数学上是

《中国人工智能学会通讯》——11.14 三维人脸识别算法

11.14 三维人脸识别算法 三维人脸识别由于其类内差距大而类间差距小,且易受表情变化等非刚性形变影响等特点,一直是一个富有挑战的模式识别问题[5] .此外,三维人脸识别还易受头发遮挡,以及数据缺失等因素的影响.通过分析发现,虽然表情变化会改变人脸的三维形状,但人脸的局部形状信息依然能保持较好的稳定性.因此,采用局部特征匹配的方式可以有效地降低表情变化对人脸识别带来的负面影响.基于此,本文提出了一种基于 RoPS 局部特征的三维人脸识别算法[9] .该算法首先采用鼻尖检测获得人脸点云:接着对三维

中国人工智能学会通讯——一张图看懂BP算法 1.3 神经网络的 BP 算法

1.3 神经网络的 BP 算法 它描述了网络输出和目标输出之间的距离,刻画了网络性能的好坏.显然,J越小,网络性能越好.寻求J的极小点是BP算法的目标. 这一关系式表明只要能计算出敏感性,即可据此计算出梯度. 删除中间过程,有 通过计算网络最后一层神经元的敏感性,然后在网络中反向逐层计算其他层神经元敏感性,这就是所谓BP. 图4非常容易记忆和理解,这就是我们所谓的一张图看懂BP算法.

中国人工智能学会通讯——一张图看懂BP算法 1.4 致谢

1.4 致谢 本文内容和相关图示,来自我每年秋天为四川大学计算机学院本科生开设的 课 程"Understanding Deep Neural Networks".感谢我的博士研究生王建勇和郭泉同学整理了本文的初稿. Fellow of IEEE,四川大学计算机学院院长,教授,博士生导师,四川省 2011 大数据分析协同创新中心主任.发表 SCI 学术论文 200 余篇,其中 IEEE Transactions 系列论文 50 余篇,著有"Convergence Analysi

中国人工智能学会通讯——一张图看懂BP算法 1.2 神经网络模型

1.2 神经网络模型 神经元模型 我们先从神经元模型说起,图1所示是一个熟知的最简单的神经元模型. 该神经元模型的数学表达式为 前馈网络模型 通过按某种方式将神经元连接起来,就可构成相关神经网络.图2所示为一个熟知的前馈网络模型,该网络有L层,第1层为输入层,第L层为网络输出层.在这个网络中,前一层神经元连接到后一层神经元,同层的神经元之间没有任何连接. 前向计算

《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

12.43 分类型数据聚类算法研究进展 在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] .在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] .比如,在问卷调查中,客户的兴趣爱好.家庭住址.教育情况都是分类型变量:在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件:在医学中,一个病人受伤的程度可分为轻微的.中度的和严重的:在市场营销中,经常将客户分为高.中.低

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进