《中国人工智能学会通讯》——11.17 基于聚类规则项的多任务聚类方法

11.17 基于聚类规则项的多任务聚类方法

多任务学习方法能够对交通路网中的多个节点同时进行分析,这满足了交通的网络性特点所提出的要求。进一步的,异质的多任务学习方法又对应了交通中关联关系的异质性特点。图 2 给出了我国山西省高速交通路网的交通流分配情况,可以看出,交通路网中异质的车流常常存在局部集中的特点,如果将这些车流集中的局部区域标记出来,则可以得到图中的聚类模式。假设当前要学习的任务是高速路网中出口流量的预测问题,那么图 2(a) 则表示出了这些预测任务的聚类模式示意图,图中红色的虚线圆圈可以看作出口的聚类,其意义在于同一个类簇中的出口预测任务是高度相关的,那么相应的基于任务聚类的多任务学习方法便可以应用于交通流分析。然而,将目前已有的多任务聚类方法直接应用于交通场景并不恰当,因为目前的基于任务聚类的多任务学习方法都需要在学习之前先指定任务类簇的数目,但这一数目在真实交通问题中是未知的,例如图 2(a) 中虚线圆圈的个数。本章针对现有基于任务聚类的多任务学习方法的不足,提出了一种基于聚类规则项的多任务聚类方法 (CRMTL, Clustered Regularization based Multi-Task Learning)。该方法采用一种新颖的聚类规则项,其优点在于不需要事先指定任务聚类的个数,而是从数据中自主地学习出聚类结构。该模型的目标函数形式如下:
其中,y i 和 X i 分别为第 i 个任务 ( 共 m 个任务 ) 的输入和输出;W 为模型参数,w i 为矩阵 W 的第 i 列;λ 为规则项系数。式 (1) 中的第一项为损失函数;第二项为聚类规则项,该规则项对任意两个任务列向量的差值添加第二范式,其作用是迫使任意两个任务 i 和 j 尽可能的相似,从而将相似的任务聚类。λ控制了聚类的强度,当 λ 越大时,聚类的个数越少。上述聚类规则项的优点是不需要事先给定任务聚类的数目,而是通过规则项对任务列向量进行约束,从数据中自主地学习出任务聚类模式。
注意,式 (1) 中的聚类规则项 不同于特征学习中的特征聚类规则项 Fused Lasso [3] 。Fused Lasso 规则项用于对特征进行聚类,其特点是对任意两个标量做差,然后取所有差值的绝对值的和作为规则项。而式 (1) 中的聚类规则项是对任意两个向量做差,然后取所有差值向量的第二范式的求和作为规则项。求解基于向量差值的规则项要比求解基于标量差值的规则项更困难[4] 。

命题 1 式 (1) 中的目标函数为凸函数 (Convex),其中的聚类规则项为非光滑 (Non-Smooth) 函数。

命题 1 给出了 CRMTL 模型目标函数的求解性质。虽然式 (1) 中的优化问题为凸函数优化问题,然而聚类规则项却为非光滑的函数。这使得式 (1)的梯度无法直接求得,因此基于梯度的优化方法无法直接使用。在机器学习方法中,常用的处理非光滑函数的方法为次梯度 (Sub-Gradient) 法[5] ,然而该方法的计算非常耗时。因此,求解 CRMTL 模型较为困难。本文提出了一种针对 CRMTL 的高效光滑近似优化算法 ( 详细内容请参看全文 )。

时间: 2024-09-28 08:20:18

《中国人工智能学会通讯》——11.17 基于聚类规则项的多任务聚类方法的相关文章

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

《中国人工智能学会通讯》——11.18 基于任务层次结构的多任务学习方法

11.18 基于任务层次结构的多任务学习方法 上一节介绍了一种不受聚类数目约束的任务聚类方法,然而当数据中任务间的关系更为复杂时,基于任务聚类的多任务模型已经不能准确学习任务间的这种关系.仍然以图 2(a) 中的交通问题为例,从更全面的角度来看,图 2(a) 中的聚类模式并不能准确地刻画任务间的关联关系,因为不同的聚类之间仍然存在着联系.事实上,当放宽聚类条件时,可以发现不同程度下的聚类模式.图 2(b) 给出了不同程度下路网节点的聚类模式.红色圆圈的聚类模式与图 2(a) 相同,为第一层聚类模

《中国人工智能学会通讯》——11.69 基于主动样本选择的判别式跟踪 方法

11.69 基于主动样本选择的判别式跟踪 方法 上面提出的基于标签传播模型的判别式跟踪方法,该方法与大多数判别式跟踪方法一样,在学习分类器时利用采样和加标签两个独立的策略选择训练样本.这种常用的训练样本选择策略存在以下两个问题.第一,根据已有的跟踪结果为样本估计标签容易引起误差累积.跟踪结果存在轻微的不准确都能导致样本标签的错误估计,进而干扰分类器的学习.第二,样本的采集是无目的性的.采集到的样本并不一定含有提高分类器性能的有利信息,导致分类器性能具有不确定性.现有的大部分判别式跟踪方法主要关注

《中国人工智能学会通讯》——11.57 基于扩展信息的移动App分类方法

11.57 基于扩展信息的移动App分类方法 移动 App 在移动用户的日常生活中扮演着十分重要的角色,通过研究其使用记录可以帮助深入理解用户的兴趣偏好,并且能够促成许多潜在的智能应用服务,例如移动 App 推荐.移动用户定向广告.移动用户市场分析等. 然而,我们在实践中发现,直接来自于移动App 的信息通常非常有限并且语义模糊.例如一个用于分析用户偏好的模型很难清晰地理解 App 使用记录:"用户正在玩 Angry Birds",除非相应的App 能够被识别为一个预先设定好的语义类别

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智