《中国人工智能学会通讯》——11.57 基于扩展信息的移动App分类方法

11.57 基于扩展信息的移动App分类方法

移动 App 在移动用户的日常生活中扮演着十分重要的角色,通过研究其使用记录可以帮助深入理解用户的兴趣偏好,并且能够促成许多潜在的智能应用服务,例如移动 App 推荐、移动用户定向广告、移动用户市场分析等。

然而,我们在实践中发现,直接来自于移动App 的信息通常非常有限并且语义模糊。例如一个用于分析用户偏好的模型很难清晰地理解 App 使用记录:“用户正在玩 Angry Birds”,除非相应的App 能够被识别为一个预先设定好的语义类别:“动作游戏”。事实上,由于移动 App 巨大的数量,以及快速的增长速度,我们十分迫切地需要一种自动化的有效方法来实现移动 App 的语义分类。尽管如此,一种可能的实现方法是直接利用移动 App 分发平台(例如 Apple Appstore 等)自带的分类体系作为原子数据(Metadata),并用其对移动 App 进行自动化识别。但是,这些原始的分类数据通常不够精确,很难准确地描述用户在使用这些 App 时的潜在语义,因而无法帮助我们精确地理解用户。

事实上,移动 App 分类不是一个简单的工作,一直尚未被深入研究。在实践中,一个最主要的挑战来自于缺乏充分的显式分类特征进行分类模型训练,这是因为移动 App 本身所具有的上下文信息非常有限。具体来说,给定一个移动 App,其唯一可用的显式分类特征就是其名称中包含的单词。然而,通过分析发现这些单词通常非常少且非常稀疏。

基于上面的挑战,我们提出一种基于扩展信息的移动 App 分类方法,能够同时利用来自于 Web和情境日志的辅助信息扩展移动 App 本身缺乏的分类特征。根据近年来一些最新的短文本分类研究成果[10-11] ,一个用于扩充原始稀疏文本特征的有效方法是利用来自于 Web 的语义知识。受此启发,我们提出使用 Web 搜索引擎来获取某个给定移动 App的搜索摘要(Search Snippet),并以此作为辅助信息扩展移动 App 的文本分类特征。但是,对于一些不流行或者刚开发的新 App,有时通过搜索引擎无法获取足够的 Web 描述信息构建分类特征。在这种情况下,我们提出利用另一种有效的信息,即来自于真实世界的情境信息去构建 App 的分类特征。根据近年来一些关于情境感知的研究成果[9] ,用户对于移动 App 的使用通常是情境感知的。例如,和商业相关的 App 通常会在工作的情境下被使用,而一个游戏App则很有可能在休闲娱乐的情境下被使用。相比于来自于 Web 的辅助信息,这些来自于真实世界的情境信息能够很好地帮助分析那些新开发的或者不流行的移动 App,因为这些 App 的使用记录可以从之前所提到的用户情境日志中获得。因此,我们提出使用真实世界的情境信息来扩充移动 App 的分类特征,并训练相应的分类器。图 2 展示了所提分类算法的具体框架。

时间: 2024-09-18 09:16:47

《中国人工智能学会通讯》——11.57 基于扩展信息的移动App分类方法的相关文章

中国人工智能学会通讯——一种基于众包的交互式数据修复方法 5 相关工作

5 相关工作 数据修复旨在发现和修正数据库中错误的数据.在过去的几十年里,研究人员提出了各种各样自动发现并修复数据库中错误数据的方法[1].这些方法大致可以分为如下三类. (1)传统的方法先依赖各种约束条件,包括FDs[5,7].CFDs[6].完整性约束[4]和包含关系(INCs)[5]来检测数据中的由错误数据引起的不一致性(或冲突):然后用文献[2-4]中的方法修正所有的错误数据,从而解决所有的冲突.对一般的文本数据库,这一类方法中的大部分工作都是使用FD/CFDs进行修复,因为FD/CFD

《中国人工智能学会通讯》——11.55 面向移动商务的数据挖掘方法及应用研究

11.55 面向移动商务的数据挖掘方法及应用研究 近年来,移动互联网.无线传感器网络相关技术的快速发展,以及智能移动设备的全面普及,极大地加快了移动信息产业向社会经济各个层面.大众日常生活的渗透.事实上,基于移动设备的应用服务已经成为用户获取信息.休闲娱乐的主要方式.种类繁多的移动应用和服务覆盖了诸如生活娱乐.在线社交.导航定位等各个功能层面,从而满足了移动用户在日常生活中各式各样的需求.这些移动应用和服务也产生了海量的商务历史数据,为研究者深入探索移动商务环境下的潜在价值.开发全新的移动商务应

《中国人工智能学会通讯》——11.69 基于主动样本选择的判别式跟踪 方法

11.69 基于主动样本选择的判别式跟踪 方法 上面提出的基于标签传播模型的判别式跟踪方法,该方法与大多数判别式跟踪方法一样,在学习分类器时利用采样和加标签两个独立的策略选择训练样本.这种常用的训练样本选择策略存在以下两个问题.第一,根据已有的跟踪结果为样本估计标签容易引起误差累积.跟踪结果存在轻微的不准确都能导致样本标签的错误估计,进而干扰分类器的学习.第二,样本的采集是无目的性的.采集到的样本并不一定含有提高分类器性能的有利信息,导致分类器性能具有不确定性.现有的大部分判别式跟踪方法主要关注

《中国人工智能学会通讯》——11.17 基于聚类规则项的多任务聚类方法

11.17 基于聚类规则项的多任务聚类方法 多任务学习方法能够对交通路网中的多个节点同时进行分析,这满足了交通的网络性特点所提出的要求.进一步的,异质的多任务学习方法又对应了交通中关联关系的异质性特点.图 2 给出了我国山西省高速交通路网的交通流分配情况,可以看出,交通路网中异质的车流常常存在局部集中的特点,如果将这些车流集中的局部区域标记出来,则可以得到图中的聚类模式.假设当前要学习的任务是高速路网中出口流量的预测问题,那么图 2(a) 则表示出了这些预测任务的聚类模式示意图,图中红色的虚线圆

《中国人工智能学会通讯》——11.60 安全隐私感知的移动 App 推荐方法

11.60 安全隐私感知的移动 App 推荐方法 由于移动 App 类型繁多.更新速度快,移动用户通常对其与安全隐私相关的功能了解甚少.为了改进用户体验,越来越多的移动 App 致力于为移动用户提供智能的个性化服务,例如基于地理位置的服务.社交分享服务等.而这些服务通常需要通过申请访问移动用户的各种私人数据来进行实现,例如读取用户当前的 GPS 坐标以及用户的通讯录列表等.这种对于移动用户私人数据的访问必然会使得App 存在潜在的安全隐私风险.举例来说,用户会担心他们的敏感地理信息(例如家庭住址

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍