机器学习和文本分析

　　以下通讯来自微软研究院的一位杰出科学家Ashok Chandra博士和微软研究院的程序经理Dhyanesh Narayanan。

　　当我(指Ashok)70年代还是斯坦福大学人工智能实验室的学生时，我十分乐观的认为人类级别的机器智能指日可待。并且，与此同时计算机因使用机器学习(ML)的技术正变得日益强大。正因为如此，几乎所有微软的新产品都不同程度的使用了机器学习技术来分析语音、数据和文本。在这篇通讯中，我们主要侧重于文本。

　　当计算机更好地理解了自然语言，新的领域不断被开创，例如：用户应用的人机界面的提升，更为完善搜素引擎，Cortana和Siri这样的个人助理和一些分析给定文献的工具。例如，一个新闻网站如果能够将文章里提到的人使用算法链接到维基百科，那么这个网站则更加吸引人，在网站中用户能够很容易地获取关于某些人的更多信息。此外，通过对于文本中额外信息的利用，用户能够轻易分别文章所讲的显著实体(如：运动员，球队等)，如图1所示：

　　图1 文本分析的愿景

　　文本分析一直是科学研究较为活跃的领域。毕竟创造所有人类知识(文本表示)不是一项轻松的工作。90年代至今的早期工作，包括Brill标签器[1]的工作确定了句子中的部分词性，[2]的工作也对新工作有一定的启示。微软研究院一直热衷于在科学领域创造新的想法，但是我们又进一步将新科技落到实处，创造出了产品级别的技术。

　　在这篇博客通讯中，我们简要展示了人工智能技术如何通过利用命名实体识别(NER)技术应用于文本分析。作为一个提供完整并可直接使用的机器学习功能的平台，Microsoft Azure ML包含了文本分析的基本能力，并且特别支持了NER–因此我们可以将笼统的概念与具体的设计选择联系起来。

　　NER是将文本与人、地点、组织、运动队伍等进行参照的技术。让我们概览一下如何利用“有监督学习”解决这个问题：

　　图2 命名实体识别流程图

　　在设计时间或“学习时间”，系统会利用训练数据创造一个学习任务的“模型”。这种方法从小部分例子中概化来处理任意新文本。

　　训练数据包括了人类标注的被学习的命名实体的标签。这看起来就像：“当Chiris Bosh超常发挥，迈阿密热火队将变得强大无比”。这个模型预期能够从自然的例子中学习，训练得能够从新输入的文本中识别运动员实体和队名实体。

　　设计时间流程的效果取决于特征提取阶段–一般而言，特征提取越多，模型越强大。比如在一个文本中和一个词相关的局部语句[比如，前k个词和后k个词]是我们人类用来将词和实体联系起来的强大特征。例如，在句子“San Francisco beat the Cardinals in an intense match yesterday”，很显然句子中提到的“San Francisco”指一个运动队而不是地名旧金山。字母大写是识别命名实体例如文中出现的人、地点的又一实用特征。

　　模型训练就是机器学习做的事，如：产生一个好的模型。一般而言，特征的选择是一个复杂的组合过程。有许多可以用的机器学习技术，包括感知元(Perceptron)、条件随机场(Conditional Random Fields)等。技术的选择依赖于使用有限训练数据的模型精确性、处理的素的和能够被自动学习的命名实体数量。例如，Azure ML NER模块默认支持三种类型实体：人、地点和组织。

　　运行时间流程的目标是输入未标记文本并且产生被创建出的模型在设计时间识别的相应的输出文本。正如人们能够观察到的一样，运行时间流程从设计时间流程服用了特征提取模块–因此，如果对于一个应用高效彻底的实体识别是必须的话，必须在运行进程中提供相对轻量的高值特性。作为一个说明性的例子，Azure ML NER模块使用了一小部分容易计算的、主要基于本地文本的特性，事实证明也十分有效。处理过程中产生的歧义通常利用Viterbi的工具解决，将实体标签分配给一系列输入单词。

　　值得注意的是，NER只是开始，但是却是从原始文本中捕获“知识”的重要一步。最近的博客通讯描述了NER加上一系列相关技术是如何提升Bing体育app的体验的–非常相似的NER栈也可供你在Azure ML中使用。除了NER，自然语言分词、链接和显著性、情感分析、事实提取等代表了提升用户文本相关应用体验的重要的步骤，这是能够帮助你使文本“生动”的额外技术。

　　我们希望你喜欢这篇通讯，并且期待您的建议。

　　参考文献

　　[1] Eric Brill, 1992, A simple rule-based part of speech tagger, Applied natural language processing (ANLC ’92)

　　[2] Li Deng, Dong Yu, 2014, Deep Learning: Methods and Applications

时间： 2024-07-29 13:37:35

机器学习和文本分析的相关文章

LinkedIn文本分析平台：主题挖掘的四大技术步骤

LinkedIn前不久发布两篇文章分享了自主研发的文本分析平台Voices的概览和技术细节.LinkedIn认为倾听用户意见回馈很重要,发现反馈的主要话题.用户的热点话题和痛点,能够做出改善产品.提高用户体验等重要的商业决定.下面是整理后的技术要点. 文本分析平台及主题挖掘文本数据挖掘是,计算机通过高级数据挖掘和自然语言处理,对非结构化的文字进行机器学习.文本数据挖掘包含但不局限以下几点:主题挖掘.文本分类.文本聚类.语义库的搭建.LinkedIn的Voices文本分析平台架构如下图,本文将侧

LinkedIn 文本分析平台：主题挖掘的四大技术步骤

Linux基础命令介绍八：文本分析awk

awk是一种模式扫描和处理语言,在对数据进行分析处理时,是十分强大的工具. awk [options] 'pattern {action}' file... awk的工作过程是这样的:按行读取输入(标准输入或文件),对于符合模式pattern的行,执行action.当pattern省略时表示匹配任何字符串;当action省略时表示执行'{print}';它们不可以同时省略. 每一行输入,对awk来说都是一条记录(record),awk使用$0来引用当前记录: [root@centos7 ~]#

借助SAP HANA实现文本分析和文本挖掘

文章讲的是借助SAP HANA实现文本分析和文本挖掘,2014年4月10日-12日,第五届中国数据库技术大会(DTCC 2014)在北京五洲皇冠国际酒店拉开序幕.在为期三天的会议中,大会将围绕大数据应用.数据架构.数据管理.传统数据库软件等技术领域展开深入探讨,并将邀请一批国内顶尖的技术专家来进行分享.本届大会将在保留数据库软件应用实践这一传统主题的基础上,向大数据.数据结构.数据治理与分析.商业智能等领域进行拓展,以满足于广大从业人士和行业用户的迫切需要. ▲点击进入第五届中国数据库技术大会(

【Spark Summit East 2017】基于Spark ML和GraphFrames的大规模文本分析管道

本讲义出自Alexey Svyatkovskiy在Spark Summit East 2017上的演讲,主要介绍了基于Spark ML和GraphFrames的大规模文本分析管道的实现,并介绍了用于的描绘直方图.计算描述性统计的跨平台的Scala数据聚合基元--Histogrammar package,并分享了非结构化数据处理.高效访问的数据存储格式以及大规模图处理等问题.

不幸的人各有不幸吗?文本分析流浪汉乞讨标语牌后发现的套路(附代码)

流浪者惯用一张手写标语牌来表达自己,我们对数百名纽约街头流浪者手中的标语做了文本分析,想看看他们希望传达的声音. 纽约的无家可归者普遍使用两种乞讨方式:一种是在十字路口的角落或地铁站与站之间的车厢里反复唠叨他们的困境,这种方式在要到一点小钱的同时也会招致周围游客的厌恶.另一种方式是举一个纸质标语牌,在上面写上他们要说的话. 标语牌显然更具优势.因为相比于口头表述,文字扫一眼更快,增减更灵活,并允许他人自由选择看或不看.不幸的是,我们大多数人路过乞讨者时都会选择忽视那些标语牌.这种行为是最方便的,

微软老兵的新项目textio：通过文本分析消除HR业务

摘要: 相比古代女性,现代女性已经争得了不小的权利,但是在很多方面依然会受到有意或无意的歧视和偏见.比如企业内部做员工工作表现评定时,女性员工更容易收到相对负面的评价,就相比古代女性,现代女性已经争得了不小的权利,但是在很多方面依然会受到有意或无意的歧视和偏见.比如企业内部做员工工作表现评定时,女性员工更容易收到相对负面的评价,就因为她们的性别. 就因为这个,两位微软的前员工Jensen Harris和Kieran Snyder搭档要做一个叫textio的公司,通过文本分析的方式,找出潜藏的H

内聘网：用文本分析+标签匹配的方法提高招聘市场匹配效率

摘要: 白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面白领招聘是个高度碎片化.非标准的市场.站在求职者一端,面对海量的招聘信息无从做出选择,只能去无脑海投,这造成了整个市场上垃圾信息的充斥.在招聘企业一端,同样需要面对海量的求职简历,要在成千上万份简历中筛出最合适的人选宛如大海捞针.这里的情况是,越是知名的企业,无效简历越会向你集中,导致大企业HR的简历筛选成本过高.筛选过程简单

基于文本分析、标签匹配的招聘引擎——内聘网

猜你喜欢

link中如何获得迭代对象的全部属性？需要发射么？

问题描述 link中如何获得迭代对象的全部属性?需要发射么? link中如何获得迭代对象的全部属性?需要发射么? 解决方案 object[] GetAllPropVal<T>(T obj) ...

如何在Python的Flask框架中实现全文搜索？

这篇文章主要介绍了在Python的Flask框架中实现全文搜索功能,这个基本的web功能实现起来非常简单,需要的朋友可以参考下全文检索引擎入门灰常不幸的是,关系型数据库对全文检索的支持没有被标 ...

Linux下高可用/可伸缩Sendmail研究

运行Sendmail的服务器群集能够在有竞争力的价格上提供高性能和高可用性.对于经验丰富的系统管理员,这一贯是常用的做法.本文描述了我们的研究,量化和描述实现高可用/可伸缩Sendmail 的方法. ...

PHOTOSHOP抠取颜色相近的头发

本教程为本站教程联盟中国教程网特别供稿本教程的目的:将头发的细节尽可能地保留,把背景去除. 本教程的难点:此图背景色为灰色,在红绿蓝三色通道中对比相差不大.头发的细节与背景色比较接近,用通道抠图时容 ...

在C#中实现MSN消息框的功能

最近有一个任务,是实现MSN消息框的功能. 一共做了三个版本:1.用asp.net实现网页中弹出消息框这个我采用了一个.NET的第三方控件(这个控件在网上找一下就行),可是这个控件只能显示在网 ...

Photoshop用钢笔和脏迹笔刷打造抽象文字

在本PS教程中,笔者将一步一步教大家如何使用PS钢笔和脏迹笔刷打造抽象文字特效.其中,我们将着重练习如何使用PS钢笔勾画出头发一般的线条,以及用脏迹笔刷来打造一些特别酷炫的特效.本PS教程是一个中 ...

串扰与综合布线

随着科学技术的发展,计算机价格越来越低,性能越来越好,局域网的传输速度越来越快,局域网的传输介质也从同轴电缆转向了双绞线和光纤,双绞线从最初的CAT1.CAT3.CAT5发展到了现在的CAT5E.CA ...

用Struts建立MVC应用

本文讲述了如何用Struts建立MVC应用. Model 1 和Model 2简介我们在开发Web应用时经常提到的一个概念是Model 1/Model 2,那么到底它是什么意思呢?其实它是对采用JS ...

Win8安装UG9.0程序组件时安装出错怎么办

在安装UG9.0程序软件时,安装出错,并提示:UGII_TMP_DIR 被设为一个有无效(非ASCII)字符的目录.怎么回事呢? 步骤如下: 一.原因分析: Win8帐户名肯定用的中文名,才会出现 ...

电脑截屏技巧截图快捷键是什么

在我们日常使用电脑不管是工作还是娱乐都经常会使用到截图功能,下面我们来介绍使用截图快捷键来实现快速截图的方法. 目前我们比较常用的有3种截图快捷键,分别是全屏截图.当前活动窗口截图.选择区域截图,下面 ...

WIN7的IE11菜单栏无法隐藏解决方法

有读者留言小编一个这样的问题.该网友想在将win7系统下的IE浏览器的菜单栏隐藏起来.可是不管是如何操作都不得如愿. 其实可以试试下面这两个方法: 1.按"WIN+R"(也就是 ...

CentOS7常用环境设置

一.云服务器ECS 地域:华东2 系统镜像:CentOS 7.3 64位设置安全组,开放端口:80.3306.27017.21.22.2222.3717.8888.5672.15672.25672 ...

IOS实现验证码倒计时功能（二）_IOS

验证码倒计时按钮的应用是非常普遍的,该Blog就和你一起来实现验证码倒计时的效果,定义一个发送验证码的按钮,添加点击事件,具体内容如下具体代码: 定义一个发送验证码的按钮,添加点击事件 //发送验证 ...

天下文章一大抄

今天搜索资料时偶然发现一个链接,点进去后,扑面而来的文字居然有些熟悉,再看不要紧,这尼玛不是我的文章吗. 再翻翻看,这网站简直无耻到极端: 1. 盗用了我的用户名: 2. 直接盗取了文章,连发表日期都 ...

WebService CXF版本频繁调用时，出现java.lang.RuntimeException: org.apache.c

问题描述 java.lang.RuntimeException:org.apache.cxf.interceptor.Fault:异常org.apache.cxf.interceptor.Abstra ...

联系人案例

项目中有用到联系人,就研究了下,参考了别人的demo,并且加上了自己的一些想法跟ui效果.有这方面需求的朋友可以拿去参考一下. 联系人字母排序参考文章,我也是参考他的:http://blog.csdn ...

阿里云双11活动撸福利攻略返利篇不只是5折,充值立返5%起

一年一度的阿里双11活动预热早已来袭,点火炬.淘宝站队.抓黄金猫等应接不暇. 作为阿里巴巴旗下的云服务,2017年阿里云双11活动已于1024程序员日启动. 小编将根据不同活动给大家播报如何撸阿里云双 ...

苹果正在呈下滑趋势

对于苹果,我想大部分都是其粉丝,铁杆粉丝也不少,我也像大部分粉丝一样,期待着她的每一个新产品和创新.当乔布斯去世以后,我毫无根据的在那认为苹果会走下坡路,不过当时股价表现和盈利似乎跟我的预言唱反调.知 ...

微信高可用分布式数据库PhxSQL设计与实现

本文详细描述了PhxSQL的设计与实现.从MySQL的容灾缺陷开始讲起,接着阐述实现高可用强一致的思路,然后具体分析每个实现环节要注意的要点和解决方案,最后展示了PhxSQL在容灾和性能上的成果. 设 ...

利用SAP 0day，四分钟内黑掉华尔街

本文讲的是利用SAP 0day,四分钟内黑掉华尔街,前一段时间,我一直想对下面一个问题做一个回答: 作为一个安全研究专家,在一个小时之内,我可能拿下多少台服务器,这些服务器能够达到什么质量?我可以攻破 ...

JSFIDDLE 助力 Threejs 功能探秘

JSFIDDLE 助力 WebGL 功能探秘太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协 ...

Angular从零到一1.3　第一个小应用 Hello Angular

1.3 第一个小应用 Hello Angular 那么现在开启一个terminal(命令行窗口),键入 ng new hello-angular ,你会看到以下的命令行输出. wangpengdeMa ...

《网络空间欺骗：构筑欺骗防御的科学基石》一3.4　隐蔽微积分

3.4 隐蔽微积分本文讲的是网络空间欺骗:构筑欺骗防御的科学基石一3.4 隐蔽微积分,隐蔽算法通过结合攻击者使用的特定恶意软件模型和防御者的检测能力得出隐蔽性度量.特定恶意软件的隐蔽性是指无法由恶意 ...

如何在其他类中调用destroyApp退出游戏

问题描述如何在其他类中调用destroyApp退出游戏?当我按退出时游戏不关闭,但是当我用手机模拟器关闭游戏时也是调用destroyApp退出游戏的,为什么我在其他类调用它就不会关闭模拟器了?当我点 ...

ORACLE手工删除数据库

很多人习惯用ORACLE的DBCA工具创建.删除数据库,这里总结一下手工删除数据库实验的步骤,文中大量参考了乐沙弥的手动删除ORACLE数据库这篇博客的内容,当然还有Oracle官方相关文档.此处实验 ...

求高手点拨ISP面向ICP的分成报价单。

问题描述高手,您好:我是一名学习软件工程的学生,也是一名痴迷者.现在我要做一个项目,并且需要知道"ISP面向为自己提高流量的ICP所给出的分成报价单"的详细信息.这一块的领域知识 ...

js预载入和JavaScript Image()对象使用介绍_javascript技巧

预载入和JavaScript Image()对象很多high-res图像真的可以使 Web 站点更加整洁.但是它们也会使站点的访问速度变慢--图像是文件,文件使用带宽,带宽直接与等待时间相关.是该了 ...

被百度K,如何恢复

说到被百度K,网上有N篇文章N个攻略N个大仙,就这一现象开展浩浩荡荡的教育活动.被K的原因也不少,本文对此不再罗嗦,只以实例供站长兄弟姐妹参考,没有技术含量,很朴实的做法.大仙们不必参考了,不做站的兄 ...

分析电子商务软件

7月19日,在<第28次中国互联网络发展状况统计报告>发布会上,商务部电子商务和信息化司副司长张佩东这样表示,今年预计网络购物销售规模将占到全社会消费品零售总额的4.5%到5%.根据相关数 ...

Android平台根据分辨率计算屏幕尺寸，基于物理尺寸来验证手机和平板应用合并的可行性

Android平台根据分辨率计算屏幕尺寸,基于物理尺寸来验证手机和平板应用合并的可行性出发点:Android系统本身是支持多种分辨率的,如图1所示,一般情况下要适配不同尺寸的设备只需要做两件事 ...

热搜