机器学习和文本分析

  以下通讯来自微软研究院的一位杰出科学家Ashok Chandra博士和微软研究院的程序经理Dhyanesh Narayanan。

  当我(指Ashok)70年代还是斯坦福大学人工智能实验室的学生时,我十分乐观的认为人类级别的机器智能指日可待。并且,与此同时计算机因使用机器学习(ML)的技术正变得日益强大。正因为如此,几乎所有微软的新产品都不同程度的使用了机器学习技术来分析语音、数据和文本。在这篇通讯中,我们主要侧重于文本。

  当计算机更好地理解了自然语言,新的领域不断被开创,例如:用户应用的人机界面的提升,更为完善搜素引擎,Cortana和Siri这样的个人助理和一些分析给定文献的工具。例如,一个新闻网站如果能够将文章里提到的人使用算法链接到维基百科,那么这个网站则更加吸引人,在网站中用户能够很容易地获取关于某些人的更多信息。此外,通过对于文本中额外信息的利用,用户能够轻易分别文章所讲的显著实体(如:运动员,球队等),如图1所示:

  图1 文本分析的愿景

  文本分析一直是科学研究较为活跃的领域。毕竟创造所有人类知识(文本表示)不是一项轻松的工作。90年代至今的早期工作,包括Brill标签器[1]的工作确定了句子中的部分词性,[2]的工作也对新工作有一定的启示。微软研究院一直热衷于在科学领域创造新的想法,但是我们又进一步将新科技落到实处,创造出了产品级别的技术。

  在这篇博客通讯中,我们简要展示了人工智能技术如何通过利用命名实体识别(NER)技术应用于文本分析。作为一个提供完整并可直接使用的机器学习功能的平台,Microsoft Azure ML包含了文本分析的基本能力,并且特别支持了NER–因此我们可以将笼统的概念与具体的设计选择联系起来。

  NER是将文本与人、地点、组织、运动队伍等进行参照的技术。让我们概览一下如何利用“有监督学习”解决这个问题:

  图2 命名实体识别流程图

  在设计时间或“学习时间”,系统会利用训练数据创造一个学习任务的“模型”。这种方法从小部分例子中概化来处理任意新文本。

  训练数据包括了人类标注的被学习的命名实体的标签。这看起来就像:“当Chiris Bosh超常发挥,迈阿密热火队将变得强大无比”。这个模型预期能够从自然的例子中学习,训练得能够从新输入的文本中识别运动员实体和队名实体。

  设计时间流程的效果取决于特征提取阶段–一般而言,特征提取越多,模型越强大。比如在一个文本中和一个词相关的局部语句[比如,前k个词和后k个词]是我们人类用来将词和实体联系起来的强大特征。例如,在句子“San Francisco beat the Cardinals in an intense match yesterday”,很显然句子中提到的“San Francisco”指一个运动队而不是地名旧金山。字母大写是识别命名实体例如文中出现的人、地点的又一实用特征。

  模型训练就是机器学习做的事,如:产生一个好的模型。一般而言,特征的选择是一个复杂的组合过程。有许多可以用的机器学习技术,包括感知元(Perceptron)、条件随机场(Conditional Random Fields)等。技术的选择依赖于使用有限训练数据的模型精确性、处理的素的和能够被自动学习的命名实体数量。例如,Azure ML NER模块默认支持三种类型实体:人、地点和组织。

  运行时间流程的目标是输入未标记文本并且产生被创建出的模型在设计时间识别的相应的输出文本。正如人们能够观察到的一样,运行时间流程从设计时间流程服用了特征提取模块–因此,如果对于一个应用高效彻底的实体识别是必须的话,必须在运行进程中提供相对轻量的高值特性。作为一个说明性的例子,Azure ML NER模块使用了一小部分容易计算的、主要基于本地文本的特性,事实证明也十分有效。处理过程中产生的歧义通常利用Viterbi的工具解决,将实体标签分配给一系列输入单词。

  值得注意的是,NER只是开始,但是却是从原始文本中捕获“知识”的重要一步。最近的博客通讯描述了NER加上一系列相关技术是如何提升Bing体育app的体验的–非常相似的NER栈也可供你在Azure ML中使用。除了NER,自然语言分词、链接和显著性、情感分析、事实提取等代表了提升用户文本相关应用体验的重要的步骤,这是能够帮助你使文本“生动”的额外技术。

  我们希望你喜欢这篇通讯,并且期待您的建议。

  参考文献

  [1] Eric Brill, 1992, A simple rule-based part of speech tagger, Applied natural language processing (ANLC ’92)

  [2] Li Deng, Dong Yu, 2014, Deep Learning: Methods and Applications

时间: 2024-07-29 13:37:35

机器学习和文本分析的相关文章

LinkedIn文本分析平台:主题挖掘的四大技术步骤

LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn认为倾听用户意见回馈很重要,发现反馈的主要话题.用户的热点话题和痛点,能够做出改善产品.提高用户体验等重要的商业决定.下面是整理后的技术要点. 文本分析平台及主题挖掘 文本数据挖掘是,计算机通过高级数据挖掘和自然语言处理,对非结构化的文字进行机器学习.文本数据挖掘包含但不局限以下几点:主题挖掘.文本分类.文本聚类.语义库的搭建.LinkedIn的Voices文本分析平台架构如下图,本文将侧

LinkedIn 文本分析平台:主题挖掘的四大技术步骤

LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn认为倾听用户意见回馈很重要,发现反馈的主要话题.用户的热点话题和痛点,能够做出改善产品.提高用户体验等重要的商业决定.下面是整理后的技术要点. 文本分析平台及主题挖掘 文本数据挖掘是,计算机通过高级数据挖掘和自然语言处理,对非结构化的文字进行机器学习.文本数据挖掘包含但不局限以下几点:主题挖掘.文本分类.文本聚类.语义库的搭建.LinkedIn的Voices文本分析平台架构如下图,本文将侧

Linux基础命令介绍八:文本分析awk

awk是一种模式扫描和处理语言,在对数据进行分析处理时,是十分强大的工具. awk [options] 'pattern {action}' file...  awk的工作过程是这样的:按行读取输入(标准输入或文件),对于符合模式pattern的行,执行action.当pattern省略时表示匹配任何字符串;当action省略时表示执行'{print}';它们不可以同时省略. 每一行输入,对awk来说都是一条记录(record),awk使用$0来引用当前记录: [root@centos7 ~]#

借助SAP HANA实现文本分析和文本挖掘

文章讲的是借助SAP HANA实现文本分析和文本挖掘,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕.在为期三天的会议中,大会将围绕大数据应用.数据架构.数据管理.传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享.本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据.数据结构.数据治理与分析.商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要. ▲点击进入第五届中国数据库技术大会(

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

流浪者惯用一张手写标语牌来表达自己,我们对数百名纽约街头流浪者手中的标语做了文本分析,想看看他们希望传达的声音. 纽约的无家可归者普遍使用两种乞讨方式:一种是在十字路口的角落或地铁站与站之间的车厢里反复唠叨他们的困境,这种方式在要到一点小钱的同时也会招致周围游客的厌恶.另一种方式是举一个纸质标语牌,在上面写上他们要说的话. 标语牌显然更具优势.因为相比于口头表述,文字扫一眼更快,增减更灵活,并允许他人自由选择看或不看.不幸的是,我们大多数人路过乞讨者时都会选择忽视那些标语牌.这种行为是最方便的,

微软老兵的新项目textio:通过文本分析消除HR业务

摘要: 相比古代女性,现代女性已经争得了不小的权利,但是在很多方面依然会受到有意或无意的歧视和偏见.比如企业内部做员工工作表现评定时,女性员工更容易收到相对负面的评价,就 相比古代女性,现代女性已经争得了不小的权利,但是在很多方面依然会受到有意或无意的歧视和偏见.比如企业内部做员工工作表现评定时,女性员工更容易收到相对负面的评价,就因为她们的性别. 就因为这个,两位微软的前员工Jensen Harris和Kieran Snyder搭档要做一个叫textio的公司,通过文本分析的方式,找出潜藏的H

内聘网:用文本分析+标签匹配的方法提高招聘市场匹配效率

摘要: 白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面 白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面对海量的求职简历,要在成千上万份简历中筛出最合适的人选宛如大海捞针.这里的情况是,越是知名的企业,无效简历越会向你集中,导致大企业HR的简历筛选成本过高.筛选过程简单

基于文本分析、标签匹配的招聘引擎——内聘网

摘要: 白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面 白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面对海量的求职简历,要在成千上万份简历中筛出最合适的人选宛如大海捞针.这里的情况是,越是知名的企业,无效简历越会向你集中,导致大企业HR的简历筛选成本过高.筛选过程简单