《中国人工智能学会通讯》——12.6 增量序列模式挖掘

12.6 增量序列模式挖掘

在动态更新的流式数据中进行数据挖掘的需求由来已久[34] ,对于序列模式挖掘来说,当数据发生少量更新时对全体数据重新进行挖掘是不可取的。因此,一些增量序列挖掘算法被提出以适应不断增长的数据,这类算法在更新迅速的大数据中显得十分重要。

Parthasarathy 等人[35]提出的 ISM 增量序列模式挖掘算法,基于 SPADE 算法进行扩展,以最小的 I/O 和计算代价处理新增数据。具体地,一种增量序列晶格的结构被用于存储所有频繁序列 , 以及原数据库中位于负边界中的所有序列。这些位于负边界中的序列可能由于新增数据的加入 , 而变成频繁序列模式。Masseglia 等人[36]则提出了一种基于Apriori 思想的增量序列模式挖掘算法 ISE。ISE 利用尽可能少的老频繁序列模式的信息最小化计算代价,挖掘出新增数据中的频繁模式。Cheng 等人[37]提出的 IncSpan,通过维护一个“几乎频繁”的序列集合作为新增数据中可能成为频繁序列模式的候选集 , 高效地进行增量挖掘。Gao 等人[38]则提出了 StreamCloSeq 算法增量,挖掘频繁闭序列模式。

对于频繁情景模式挖掘,Patnaik 等人[39]较早在频繁情景挖掘问题中考虑了数据动态问题。在Patnaik所描述的问题中,事件序列以批量方式更新;然后,对于一段新的事件序列,首先使用已有的频繁情景挖掘算法在增量序列上挖掘候选的情景模式。他们工作的主要贡献是提出了一个频率的下界,凡是频率超过此下界的情景模式很有可能在更新后的序列中是一个 top k 的频繁情景模式。我们[40]率先将频繁情景模式发现算法推广到在线形式,提出的MESELO 算法从动态更新的序列中 , 不断快速地挖掘出最新的频繁情景集合。这里,事件序列总是一个时刻接一个时刻地连续不断更新,而不是批量的更新数据。这个问题中数据更新更快,对算法的响应时间要求更加严格。具体地,在 MESELO 算法中,一种最后情景发生的概念被提出,基于最后情景发生,动态更新的事件序列中的情景最小发生可以快速地被找到。另外,一种高度压缩的场景 trie 则被提出用来高效存储事件序列的更新信息,辅助算法快速计算。MESELO 算法是首个单遍历的频繁情景模式挖掘算法,较传统的方法提高了 1~2 数量级,响应时间通常不超过 1 s。

时间: 2024-09-10 20:10:53

《中国人工智能学会通讯》——12.6 增量序列模式挖掘的相关文章

《中国人工智能学会通讯》——8.41 软件缺陷挖掘

8.41 软件缺陷挖掘 软件是计算机系统的灵魂,软件的质量是计算机系统安全可靠运行的保障.伴随着软件运行环境逐渐从封闭.静态的单机环境向开放.动态多变的网络环境过渡,系统功能变得越发复杂,代码规模也不断增加,如何有效保证庞大而复杂的软件系统的质量使其能够正确.可靠的运行,已成为软件研究者和软件开发人员所面临的巨大挑战. 软件质量主要体现为软件的可靠性.可用性.有效性和可维护性[1] ,其中软件的可靠性尤为重要.导致软件系统不可靠的主要诱因之一是软件缺陷[2] .软件缺陷是软件中存在的某种破坏其正

《中国人工智能学会通讯》——12.5 并行序列模式挖掘

12.5 并行序列模式挖掘 早期的并行序列模式挖掘算法大多被用于解决算法效率低下的问题.因此,许多并行算法是由其串行版本改进得到.例如,Zaki [28] 扩展了由他自己提出的 SPADE 算法,提出了在内存共享框架下的并行算法 pSPADE.pSPADE 的并行性主要来源于对垂直格式数据库的划分,这种划分既可以横向也可以纵向,最终实现了并行.采用了相似策略的算法还有 Par-ASP [29] 和 Par-CSP [30] 等. 近年来,随着数据量的不断增大.数据类型的不断变化,以及新型并行计算

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智