江辉老师分享“自然语言处理的通用深度学习方法”

6月5号,由阿里巴巴iDST邀请到了江辉老师,在北京阿里巴巴绿地中心阿里同学们做了一场A New General Deep Learning Approach for Natural Language Processing的讲座。

分享概要

如今在NLP领域各种CNN,RNN及其变种网络层出不穷,但是它们在复杂度,模型训练等方面都有不少问题。在这样的现状下,能否有一种更简单的机制代替这样的复杂网络,同时又取得与其相当甚至更好的效果,这成为了很多人的诉求。

江辉老师直接切入了NLP的痛点之一——变长编码(variable-length encoding)。即NLP需要处理的往往不是定长(fixed-size)的数据,而是变长的短语,句子,段落甚至篇章。也是因为变长编码的原因,才使得NLP领域大量引入CNN和RNN模型。

技术核心

于是江辉老师及其团队,提出了FOFE-net架构,即FOFE(Fixed-size Ordinally-Forgetting Encoding) + DNN,来解决变长编码问题,同时降低模型复杂度,提高训练速度甚至整体效果

FOFE是一种简单精妙的rule-base编码方式。上图中,左侧1-of-K是传统的one-hot编码,右侧是FOFE编码的计算过程的例子,下方是计算公式,公式中,z是整个编码,t表达不同的时刻,e是当前时刻的词的one-hot向量。运算当前t时刻的FOFE等于上个时刻t-1的FOFE编码乘上一个打折系数(遗忘系数)alpha,然后加上t时刻词的one-hot,通俗的说就是,在one-hot的基础上利用了数值的大小表明了词的位置信息

FOFE是简单的,同时是精妙的,江辉老师也给出了FOFE的理论证明

解决了变长编码到定长编码的问题,那么后续只需要使用DNN(多层)就能完成很多任务,此次分享中,江辉老师展示了NLP的多个任务上使用FOFE-net和其他方法的结果对比

(红色部分为重点介绍的任务)

实验结果

由于文章篇幅有限,本文仅详细讲述Word Embedding任务,其他任务仅简单描述方法和结果

用了FOFE编码后Word Embedding变得非常简单,甚至并不需要深度学习相关的做法就能达到很好的性能。如图上所示,词表的长度为K,对于每个词w,我们使用该词左右两侧的若干词做FOFE编码,如果该词出现多次,那么left FOFE和right FOFE则是所有出现词w的上下文FOFE编码的平均(该做法只是策略之一),得到词到词context FOFE编码的矩阵后(K * 2K,2K是因为左右两个FOFE长度),使用SVD等sparse to dense的手段就能得到Word Embedding

这种简单的方式得到的效果轻松超越了word2vec,GloVe等方法

除此外江辉老师还介绍了NLP中不少任务上FOFE-net的做法和表现(下面只列举部分):

  1. 语言模型。使用FOFE方式编码词w历史的词,然后经过DNN预测下一个词的概率分布。在Google-1B的数据上,表现出惊人效果(超越绝大多数方法,并与谷歌的最好算法相当),并且训练时间上大大降低(google使用32GPU,FOFE使用1GPU)。
  2. 命名实体识别。假定某个词序列S=wn~wn+m为实体,使用FOFE编码S左右两侧的context,作为特征进入DNN,输出判断该词序列S是否是实体,是何种实体。在CoNLL03任务上,得到不错的效果。
  3. 信息抽取。在2015 KBP-EDL,2016 KBP-EDL上表现不俗。

还有不少任务,如指代消解,文本分类,实体链接,句法分析等都在分享中有分析和对比,由于篇幅原因不能一一列举

听众收获

江辉老师的分享非常精彩,虽然只有一个小时左右,干货多多,让人意犹未尽。
QA环节也有热烈的讨论:

  1. 问:FOFE编码在处理长句子时,是否会因为alpha不断打折而导致浮点精度问题丢失了一些词的信息?答:可以采用双向的FOFE编码减缓浮点精度问题
  2. 问:FOFE编码是否能再进入RNN,CNN然后效果是否会进一步提升?答:这个工作有学生做过,训练速度下降了,但是效果并没有好

个人思考

如有不对,欢迎评论区拍砖

  1. 问:如何在使用FOFE编码的同时融入更多其他信息,如词的标签,词性等,因为FOFE编码之后已经是整个sentence粒度,而词的标签还停留在word粒度?答:使用相同的编码方式编码额外的信息,如FOFE词性vector,FOFE词标签vector等;
  2. 问: 为什么FOFE-net会得到更优的性能?答:猜测。FOFE极大简化了网络复杂度,使得网络被训练得非常好,换句话说CNN和RNN这样得复杂网络在现有的BP算法下,很有可能没有被训得很好。这样的简化网络结构换取效果提升的思路貌似是个不错的方向

参考资料

The Fixed-Size Ordinally-Forgetting Encoding Method for Neural Network Language Models

时间: 2024-09-27 17:28:54

江辉老师分享“自然语言处理的通用深度学习方法”的相关文章

线上分享干货 | Deep-ReID: 关于行人重识别的深度学习方法

行人重识别是计算机视觉领域一个偏应用的话题,主要涉及智能安防/智能监控.本期我们邀请到了发表了来自悉尼科技大学博士生,近期发表ICCV2017论文的郑哲东来为我们分享行人重识别的相关内容. 分享背景 行人重识别是计算机视觉领域一个偏应用的问题,主要涉及智能安防/智能监控,可以应用于大型公共场所,如主题公园/机场/大学校园 来寻找指定行人.嘉宾将主要介绍深度学习相关的行人重识别方法. 分享嘉宾 郑哲东,悉尼科技大学博士生,研究方向为 图像检索和行人重识别.近期 ICCV 2017录用的论文<Unl

为你分享73篇论文解决深度强化学习的18个关键问题

这两天我阅读了两篇篇猛文 A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview,作者排山倒海的引用了 200 多篇文献,阐述强化学习未来的方向. 论文:A Brief Survey of Deep Reinforcement Learning 作者:Nevertiree 链接:http://www.paperweekly.site/papers/922 论文:Deep Re

独家|胡郁出任讯飞消费者事业群总裁,物联网时代输入法战争启幕

11月24日,新智元与科大讯飞联合主办的"人工智能+ 共创新世界"新智元百人会·11月领袖论坛在北京举行.以科大讯飞23日举行的年度发布会为契机,本场论坛从技术上主要围绕认知计算和认知智能展开讨论:在产业上讨论了语音技术的落地问题:发展趋势上,围绕物联网.AI+的巨大潜力展开. 新智元创始人杨静开场致辞,科大讯飞董事长刘庆峰.IBM 大中华区首席技术官.IBM 中国研究院院长沈晓卫.科大讯飞轮值总裁胡郁发表主题演讲. 会后,在接受新智元的独家专访中,科大讯飞轮值总裁胡郁透露,不久前公司

热烈祝贺09年12月网络营销策略和实战培训圆满结束

6号下午5点,由上海映辉网络营销研究中心发起多家公司一起组织的为期两天的网络http://www.aliyun.com/zixun/aggregation/12474.html">营销策略和实战公开培训课程在上海市虹桥路333号交大慧谷科技创业园区一楼会议室圆满结束,学员们仍然沉浸于两天的课程中,回味着两天三位实战派老师给大家带来的网络营销全方面的知识和经验分享.这三位老师分别是:赵进涛老师:上海火速原营销总监,上海云带运营总监(http://www.21yundai.com ),擅长网络

面向机器学习的自然语言标注.

面向机器学习的自然语言标注 James Pustejovsky & Amber Stubbs 著 邱立坤 金澎 王萌 译 图书在版编目(CIP)数据 面向机器学习的自然语言标注 / (美) 詹姆斯·普斯特若夫斯基(James Pustejovsky),安伯·斯塔布斯(Amber Stubbs)著:邱立坤,金澎,王萌译. -北京:机械工业出版社, 2017.1 (O'Reilly精品图书系列) 书名原文:Natural Language Annotation for Machine Learnin

网络营销和实施实务讲座分享会(上海,2009/11/20下午)

日期:2009年,11月20日,周五,下午1:00-5:00 上海 比尔.盖兹说过:"21世纪要么电子商务,要么无商可务":未来所有的企业都将使用电子商务,作为电子商务的必备的推广手段--网络营销,您和您的企业掌握了吗? 12月20日下午1点到5点,上海著名的网络营销研究机构上海映辉网络营销研究中心联合中国电子商务协会网络营销认证办公室,上海云带网络,上海奥鹏咨询联合推出基于企业实战的网络营销实施和运营实务讲座,分别由以下老师来分享网络营销的知识和经验: 张守辉老师(上海映辉网络营销研

网络营销策略和实战培训讲座分享会

日期:2009年12月23日,周三,上午9:30-4:00 上海12月23日上午9:30到下午4点,上海著名的网络营销研究机构上海映辉网络营销研究中心联合上海火速,上海云代网络,上海奥鹏咨询,上海纽博商务联合推出基于企业实战的网络营销实施和运营实务讲座公开课,分别由以下老师来分享网络营销的知识和经验:董应群老师(上海火速网络营销事业部总经理 http://www.hotsales.net/ )张有为老师(上海奥鹏企业管理咨询有限公司CEO, http://www.51openb2b.com)张守

综述 | 一文读懂自然语言处理NLP(附学习资料)

前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科.在此领域中探讨如何处理及运用自然语言. 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起.基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义.在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理. 早期的自然语言处理具有鲜明的经验主义色彩.如 1913 年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是"手工查频&quo

由昝辉新博客快速上线看301重定向的使用

昨天,在百度搜索seo一词时,发现昝辉老师的新博客seozac.com已经取代chinamyhosting.com/seoblog排在了百度首页,因为我是一个半路出家的seoer,所以对这个事情不是很了解,带着这个疑问,我在各大站长论坛里面发帖求助,希望能够得到帮助.但是大多数站长回答的都模凌两可,不是很清楚.最后,moon老师给出了一个答案"用原来的SEO博客做了301跳转到新的SEO博客,这就是很简单的301权重转移."这个问题到这算是有了一个答案,我之前知道301这个东西的存在,