学术青年分享会:达观数据张健分享文本分类方法和应用案例

自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

近期,雷锋网 AI 研习社就邀请到了达观数据的张健为大家分享了一些NLP方面的知识和案例。

分享主题:达观数据 NLP 技术的应用实践和案例分析 

分享人:张健,达观数据联合创始人,文本挖掘组总负责人,包括文本审核系统的架构设计、开发和日常维护升级,文本挖掘功能开发。复旦大学计算机软件与理论硕士,曾在盛大创新院负责相关推荐模块,在盛大文学数据中心负责任务调度平台系统和集群维护管理,数据平台维护管理和开发智能审核系统。对大数据技术、机器学习算法有较深入的理解和实践经验。

此次分享中,张健按照NLP概述、文本分类的传统方法、深度学习在文本分类中的应用和案例介绍四个板块,结合在达观数据的系统设计和应用经验,分享了他的见解。

达观数据是一家专注于文本挖掘和搜索推荐技术服务的企业,总部位于上海浦东软件园。达观的NLP挖掘系统的设计思路是,用户直接接触的到的最终功能,他们称为是篇章级应用,可以处理整段的文本,提供的功能包括文本自动分类、情感分析、自动文本标签、违禁词汇和垃圾评论识别等。在下方支持编章级应用的是短串级应用,更底层一些,在词组、短句的层面上提供结构分析和变形、词位置分析、近义词替换等功能。最底层、最小粒度的是词汇级应用,比如中文分词、词粒度分析、调性标柱等等。

文本挖掘的任务可以分成四类:

  • 同步的序列到序列,特点是输入文本的每一个位置都有对应的输出
  • 异步序列到序列,输入和输出可以不完全对应
  • 序列到类别,给文本加上标签
  • 类别到序列,根据给定的标签生成文本

然后张健依次介绍了序列到序列任务中几种问题的常见解决方案。

在序列标注/命名实体识别问题中,每个词都会有各自的标签;选用的词汇标签体系越复杂,标注精度就越高,但同时训练也就越慢。所以需要根据人力、时间等成本选择合适的标签体系。

英文不需要分词,但是多了词形还原和词根提取的问题。在这里,张健推荐WordNet来帮助解决相关问题。

接下来进入了今天讲解的重点,就是文本分类。

传统机器学习方法做文本分类会需要文档建模、文本语意、特征抽取、特征向量赋权等步骤。

具体到分类器的设计,常用的四种思路为朴素贝叶斯分类器、支持向量机分类器、KNN方法和决策树方法。

然后还可以聚合多个分类器来提高准确率。最简单的想法是用多个模型分别预测然后投票,实际的聚合方法是另外训练一个分类器,模仿多个分类器组合后的结果。这里需要原来的几个分类器效果不能太接近,而且不能有太差的。

在有了深度学习以后,文本分类又有了很多效果出色的新方法。

首先可以用CNN做文本分类,它不需要人工特征,而对词序包含的信息提取能力更强。

在基础的CNN之上,可以在其中不同的层使用不同的思路,衍生出来RNN+CNN、DCNN(动态池化,更适合不同长度的文本)、Very Deep Network等等。

常用的方法还有RNN和LSTM,适合变长序列的建模。序列过长的时候,一般的RNN因为容量的问题会丢失信息、误差增大,它的变种LSTM中通过三个门之间的信息保留和更新,更好地解决了长距离依赖的问题。双向LSTM同时有正向和反向的部分,可以同时捕获上文和下文的信息,表现也比单向的更好。

然后就是近期风靡的注意力模型,是编码解码器的升级版本。Encoder-Decoder模型的问题是,输入中的每个词都对输出有同样程度的影响。但实际语言中往往不是这样的,注意力模型就可以对输入中的不同词赋予不同的权重,让对语意影响程度更高的词语对输出有更高的影响力,从而在输出中更好地体现了输入的关键信息。

张健最后结合达观数据的业务介绍了一些NLP的应用案例。

比如结合定制行业专业语料、垂直语意模型、离线统计、语意拓展等等方法进行新闻分类,结合无监督预训练+持续Fune Tuning的训练方法,不仅可以分为新闻、财经、科技、体育、娱乐、汽车等大类,财经中股票、基金、外汇,体育中NBA、英超、中超等细分类别也可以分得出来。

第二个案例是垃圾信息识别。现在许多广告信息都会用特殊字符(火星文)尝试骗过识别系统,就需要对变形词做识别还原,方法包括去除特殊符号、同音和繁简变换、偏旁拆分等。还可以先用语言模型识别文字,发现语意不通顺、胡言乱语的,就很有可能是故意规避关键字检查的垃圾信息。

第三个案例是情感分析。简单的方法可以根据直接表达感情的关键词做判断,还可以做特征工程然后用机器学习的方法识别语句模式,以及用深度学习的方法得到更好的信息提取效果。

最后张健还分享了一个他们的文本挖掘系统的使用链接,感兴趣的读者可以尝试一下他们系统不同层次的丰富功能。

本次分享的视频录像可以点此观看

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-22 15:16:32

学术青年分享会:达观数据张健分享文本分类方法和应用案例的相关文章

AI 科技评论和学术青年们的 GAIR 小聚会,面基就要freestyle|CCF-GAIR 2017

今天是中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的第二届CCF-GAIR人工智能与机器人峰会的首日,毫无疑问也是人工智能众「牛」云集的一天.而同样是在 7 月 7 日,雷锋网(公众号:雷锋网) AI 科技评论也召集了参加大会的学术青年们来了个 freestyle 的小型面基会.想知道大家都在聊些什么?雷锋网都透露了哪些重磅新闻?赶紧和雷锋网 AI 科技评论一起来看看吧! 在会前的数天,雷锋网 AI 科技评论就通过短信.微信一对一私聊以及后台筛选的方式找到了一批将参加 CCF-

达观数据新用户推荐的三大利器

推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,但对于新用户而言,没有任何的用户行为,如何进行最有效的推荐呢?这就衍生了用户冷启动问题.在当下,企业拉新成本越来越高,用户的选择面也越来越多,当新用户到达之后,如果不能很快的捕捉用户兴趣,推荐其所感兴趣的物品,很容易造成用户流失.所以能否解决好冷启动问题,是推荐系统非常重要的课题 达观数据研发的个性化推荐引擎目前服务了上百家企业,行业覆盖了新闻,视频,直播,文学,电商等领域,每天API调用量超过10亿,覆盖近亿网民.本文主要介绍下达观

搜索难用、个性推荐不准?达观数据以此切入大数据服务

几乎每见一个创业者,我都会听到一次 "-,然后我们用大数据做用户精准画像 / 智能推荐 / 金融征信-",其中有多少人举着大数据的旗.干着基础数理统计的事,大家心知肚明. 大数据背后的技术算法是核心,创业公司搭一个基础大数据的 "台子" 至少要请 4 个工程师,即使程序员的月薪降到 12k,也意味着每年至少 50 万元的成本.在创业初期,产品.商业模式都需要不断打磨.改善的情况下,分出精力和财力去做这件事,不一定划算. 所以这种服务交由第三方企业来做是趋势,但由于价

BDTC PPT集萃(四):腾讯、阿里等分享的大数据应用

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日, 第八届中国大数据技术盛会 将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各

BDTC PPT集萃(三):BAT、IBM、Intel等分享的大数据技术

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

BDTC PPT集萃(二):Facebook、LinkedIn等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

站长百科访谈:吴健分享电商之路

中介交易 SEO诊断 淘宝客 云主机 技术大厅 大家好,欢迎围观站长百科访谈节目.本期访谈吴健分享电商之路.大家欢迎. 站长百科:吴健你好,很高兴你能参加站长百科的访谈,首先和大家简单介绍下你的电商路? 吴健:各位站长朋友,大家下午好,我是吴健,那在今天的分享开始前,我简单介绍下我自己的一些情况. 我是吴健,一个一直在路上的80后.目前在北京一家电子商务服务企业负责市场工作,其实,前两天凌芳找到我时,我还是有点犹豫的,因为我不是一个纯粹的个人站长,但是后来联想到目前电商发展也和站长朋友息息相关.

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

hbase 有关过车数据行健设计

问题描述 hbase 有关过车数据行健设计 15C 过车数据按车牌号和时间进行查询 车牌号_time(黑A20B53_20150402121212)这种行健的头应该怎么设计和处理. 解决方案 如果查询条件以时间为主,建议将时间放在前面,如果查询条件以车牌为主,这样可以.