PRICAI 2016 论文精选 | 大规模文本分类

文本分类是文本信息处理的基础性工作,因此受到很多关注。但文本的特征表示严重地限制了文本分类性能的提升。而随着社会网络化的发展,大规模的甚至海量的文本信息急剧增加,导致文本分类问题面临着巨大挑战。本文是PRICAI 2016大会收录的论文,介绍了一种解决该问题的快速训练方法。

标题:大规模文本分类之图表增强型快速训练

摘要:

本文提出了一种基于增强型算法的图表分类快速训练方法,通过图表输入文本,应用到情绪分析中。图表的形式非常适合表示用自然语言处理技术处理过的文本结构,比如语法分析,命名实例识别和语义解析。目前,大量把文本表示为图表的分类方法已经被提出。然而,它们很多都因为特征空间大而提前限制候选特性。我们提出的方法,无需限制搜索空间,提出了两种近似方法来增强基于图表规则的学习。在情绪分析数据集上的实验结果表明,我们的方法有助于提高训练速度。此外,基于图表表示的分类方法利用了丰富的文本结构信息,这在使用其他更简单的输入格式时无法被检测到,最终表现出更高的准确率。

关键词:文本分类;特征工程;图表增强

第一作者:

Hiyori Yoshikawa

富士通实验室研究员,富士通是日本排名第一的IT厂商,全球第四大IT服务公司,全球前五大服务器和PC机生产商。

本文作者:陈杨英杰

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-08 19:23:37

PRICAI 2016 论文精选 | 大规模文本分类的相关文章

PRICAI 2016 论文精选 | 基于多核学习整合文本信息的微博图片情绪分析

近年来,微博已经成为了人们最常用的网络社交工具之一,所以对微博中的信息进行挖掘是非常有价值的.因为图片具有快捷方便的天然属性,只用图片发布微博是一个新的趋势.目前大多数微博的情绪分析研究都聚焦在文本,已经不能适用.利用机器学习技术对图片进行情绪分析是实现高级人机交互的重要部分,对于实现人机交互.人-计算机接口以及智能计算机等有重要意义,这已成为目前模式识别.机器学习和认知科学等研究领域的热门研究课题之一. 标题:基于多核学习整合文本信息的微博图片情绪分析 摘要:微博上,图片是表达用户情绪最重要的

PRICAI 2016 论文精选 | 最大间距二叉树纠错输出码

多类别分类问题在机器学习领域吸引了很多关注,传统的解决方案倾向于将其变为多个二元问题,相应的策略包括决策树.神经网络等等.本文被PRICAI 2016大会收录,提出了一种最大间距二叉树纠错输出码,对应的编码矩阵更加稳定和易识别. 标题:最大间距二叉树纠错输出码 摘要:编码是纠错输出码(ECOCs)中最重要的一步.传统的编码策略通常与数据无关.最近,提出的一些树形编码算法率先利用交互信息预估类间可分性,将二叉树自上而下分层分区,以获得一个编码矩阵.但这些标准通常是由一个非参数方法计算得到,一般来说

PRICAI 2016 论文精选 | 特征选取与实例选取的差分进化算法

特征选取与实例选取的差分进化算法(A Differential Evolution Approach to Feature Selection and Instance Selection)   摘要:由于存储硬件和数据采集技术的不断发展,越来越多数据正被收集.数据的传入流量非常的庞大,以至于数据挖掘技术无法跟上其脚步.收集的数据往往有多余的或不相关的特征/实例,它们会限制分类的性能.特征选取和实例选取是通过消除无用数据来帮忙缓解该问题的过程.本文提出了一系列使用差分进化算法(Different

PRICAI 2016 论文精选 | 集到集视觉追踪

信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬勃发展.信号稀疏表示的目的就是在给定的 超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处 理,如压缩.编码等.本文介绍了一种新方法SSVT可以更有效的实现视觉追踪. 集到集视觉追踪(Set to Set Visual Tracking)   摘要:稀疏表示已经广泛的应用于视觉跟踪,实现了卓越的跟踪效

PRICAI 2016 论文精选 | 低分辨率人脸识别的大幅度耦合映射

低分辨率脸部识别的大幅度耦合映射(Large Margin Coupled Mapping for Low Resolution Face Recognition)   摘要:传统的脸部识别算法在良好控制的环境下可以实现非常高的性能.然而,当脸部图像的分辨率变化时,这些算法的性能则非常低.一个两步框架被提出,它通过采用超分辨率(SR)并在超分辨脸部图像上进行脸部识别来解决分辨率问题.然而,当SR重点更多的集中于视觉增强,而不是分类精度时,该方法在识别任务方面的性能通常都比较低.最近,不同分辨率的

PRICAI 2016 论文精选 | 基于车辆优先级优化交通系统的道路分布

基于车辆优先级优化交通系统的道路分布(Optimization of Road Distribution for Traffic System Based on Vehicle's Priority)   摘要:不是通过专注于每一个汽车的道路来选择他们的路线这种方式,使交通系统运行流畅,本文中,我们提出了一种方法,通过分配对于车辆被视为是一种资源的道路,使车辆避免被卷入到交通拥堵中.为了使道路分配公平,我们引入了显示每辆车优先权的参数.我们将分配道路视为一个线性规划问题,并用线性规划来解决它.试

ECAI 2016论文精选 | 基于顺序保持投影的面部年龄估计——这是一个看脸的存在,年龄不再是秘密 | AI科技评论

应用场景导读:本文提出了一种基于顺序的新型面部年龄分析技术.当时how-old的意外走红除了证明朋友圈依然是一个看脸的存在,还说明了此类技术的巨大潜力,现在已经用于各种商业场景,帮助商业主做精准的客户分析.一个摄像头记录下来店人群的面部信息,就可以大致归纳他们的年龄和性别区间,进而得到在某个商铺做停留动作的人群中年龄.性别的比例,相应的客户动向和行为分析等更深入的应用也已经逐渐落地. 标题:基于顺序保持投影的面部年龄估计 摘要:面部年龄估计是自动面部感知中还未解决的挑战之一.之前的研究通常把它表

用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也是10亿量级,我们是任务是根据商品标题预测其所在叶子类目,示例中商品归属的类目为

ECAI 2016论文精选 | 自适应学习网络化多代理系统中的社会规范高效出现——人工智能居然也会互相学习 | AI科技评论

应用场景导读:多代理系统是一个崭新的研究领域.它在短时间内显示出的理论和实际应用价值引起多方面的高度重视.其理论价值包括重新认识智能等基本问题,其实际应用价值包括开创基于代理的系统.人的助手.使用国际互联网获取和推销信息等.其广泛的应用领域包括太空服务.区域监测.机器人合作.工业控制.商业和经济等. 标题:自适应学习网络化多代理系统中的社会规范高效出现 摘要:本文探讨了如何利用网络化多代理系统代理的自适应学习行为来加强规范.一般学习框架,其中代理可以通过他们各自学习经验进行社会学习,动态地调整自