Semi-supervised Sequence Learning

之前分享过几篇有监督的sentence表示方法,比如Recurrent Convolutional Neural Networks for Text Classification、Convolutional Neural Networks for Sentence Classification,也分享过很多几篇无监督的sentence表示方法,比如Distributed Representations of Sentences and Documents、Skip-Thought Vectors。本篇将分享是一篇半监督的sentence表示方法,该方法比Paragraph Vectors更容易做微调,与Skip-Thought相比,目标函数并没有它那么困难,因为Skip-Thought是用来预测相邻句子的。本文的题目是Semi-supervised Sequence Learning,作者是来自Google的Andrew M. Dai博士。

纯粹的有监督学习是通过神经网络来表示一个句子,然后通过分类任务数据集去学习网络参数;而纯粹的无监督学习是通过上文预测下文来学习句子表示,利用得到的表示进行分类任务。本文的方法将无监督学习之后的表示作为有监督训练模型的初始值,所以称为半监督。本文的有监督模型采用LSTM,无监督模型共两种,一种是自编码器,一种是循环神经网络语言模型。

第一种模型称为Sequence AutoEncoder LSTM(SA-LSTM),模型架构图如下:

这幅图大家看着都眼熟,和Sequence to Sequence Learning with Neural Networks中的seq2seq架构图很相似,只不过target和input一样,即用input来预测input自己。将自编码器学习到的表示作为LSTM的初始值,进行有监督训练。一般来说用LSTM中的最后一个hidden state作为输出,但本文也尝试用了每个hidden state权重递增的线性组合作为输出。这两种思路都是将无监督和有监督分开训练,本文也提供了一种联合训练的思路作为对比,称为joint learning。

第二种模型称为Language Model LSTM(LM-LSTM),将上图中的encoder部分去掉就是LM模型。语言模型介绍过很多了,比如A Neural Probabilistic Language Model和Character-Aware Neural Language Models,详细的可以看之前的分享,这里不再赘述了。

模型部分就是这些,后面作者在情感分析、文本分类、目标分类等多组任务中进行了对比实验,均取得了不错的结果。

本文的创新点在于结合了无监督和有监督学习两种思路的优点来解决一个传统问题,虽然说无监督是一种趋势所在,但有监督针对具体的问题会有更好的效果。这种融合各类模型优点的模型会更受欢迎,也是一种不错的思路。

来源:paperweekly

原文链接

时间: 2024-09-20 05:35:47

Semi-supervised Sequence Learning的相关文章

论文解读:Convolutional Sequence to Sequence Learning

" 邓侃 卡耐基梅隆大学博士 北京大数医达科技有限公司CTO 1. PaperWeekly 论文阅读小组  阅读论文是小众活动,阅读者分散在全球各地.PaperWeekly 论文阅读小组,把分散在全球的华人阅读者,聚合在一起.不仅互帮互助读懂论文,而且通过讨论,激发灵感. 进入 PaperWeekly 的网站,阅读者不仅可以看到本周热点论文标题,而且可以在线阅读论文正文. 网页左侧显示的是论文正文,阅读者可以在论文上划重点.网页右侧是讨论区,阅读者点击左侧重点语句后,就可以在右侧,针对这一句话提

大牛讲堂 | 深度学习Sequence Learning技术分享

雷锋网按:本文作者都大龙,2011年7月毕业于中科院计算技术研究所:曾任百度深度学习研究院(IDL)资深研发工程师,并连续两次获得百度最高奖-百万美金大奖:现在Horizon Robotics负责自主服务机器人.智能家居以及玩具方向的算法研究与开发,涉及深度学习.计算机视觉.人机交互.SLAM.机器人规划控制等多个领域. 深度学习独领风骚 人工智能领域深度学习独领风骚自2006 年Geoffery Hinton等在<科学>( Science) 杂志发表那篇著名的论文开始, 深度学习的热潮从学术

Sequence to Sequence Learning with Neural Networks

seq2seq+各种形式的attention近期横扫了nlp的很多任务,本篇将分享的文章是比较早(可能不是最早)提出用seq2seq来解决机器翻译任务的,并且取得了不错的效果.本文的题目是Sequence to Sequence Learning with Neural Networks,作者是来自Google的Ilya Sutskever博士(现在OpenAI).可以说这篇文章较早地探索了seq2seq在nlp任务中的应用,后续的研究者在其基础上进行了更广泛的应用,比如自动文本摘要,对话机器人

QA Systems and Deep Learning Technologies – Part 2

Introduction This is the second article in a two part series about QA Systems and Deep Learning. You can read part 1 here. Deep Learning is a subfield of machine learning, and aims at using machines for data abstraction with the help of multiple proc

(转) Deep Learning in a Nutshell: Reinforcement Learning

  Deep Learning in a Nutshell: Reinforcement Learning   Share: Posted on September 8, 2016 by Tim Dettmers No CommentsTagged Deep Learning, Deep Neural Networks, Machine Learning,Reinforcement Learning This post is Part 4 of the Deep Learning in a Nu

(转) Awesome Deep Learning

Awesome Deep Learning  Table of Contents Free Online Books Courses Videos and Lectures Papers Tutorials Researchers WebSites Datasets Frameworks Miscellaneous Contributing Free Online Books Deep Learning by Yoshua Bengio, Ian Goodfellow and Aaron Cou

QA Systems and Deep Learning Technologies – Part 1

1. Introduction The automatic question and answering (QA) system has been in use for decades now. However, Siri's and Watson's success in 2011 has captured the whole industry's attention. Since the success of these two technologies, the automatic QA

Learning Phrase Representations using RNN Encoder–Decoder for...

本篇将分享的文章相比于昨天那篇Sequence to Sequence Learning with Neural Networks更早地使用了seq2seq的框架来解决机器翻译的问题,可能上一篇来自于Google,工程性更强一些,学术性有一些不足.本文来自于学术机构,学术范更浓一些.本文的题目是Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation,作者是来自蒙特利

Neural Machine Translation by Jointly Learning to Align and....

前面的两篇文章简单介绍了seq2seq在机器翻译领域的尝试,效果令人满意.上一篇也介绍到这一类问题可以归纳为求解P(output|context)的问题,不同的地方在于context的构建思路不同,上两篇中的seq2seq将context定义为encoder的last hidden state,即认为rnn将整个input部分的信息都保存在了last hidden state中.而事实上,rnn是一个有偏的模型,越靠后的单词在last state中占据的"比例"越高,所以这样的cont