Character-Aware Neural Language Models

本篇分享的文章是Character-Aware Neural Language Models,作者是Yoon Kim、Alexander M. Rush。两位是HarvardNLP组的学生和老师,前者贡献了一些有意义的torch代码,比如seq2seq+attn,后者第一次将seq2seq的模型应用到了文本摘要。

卷积神经网络之前常常用在计算机视觉领域,用来在图像中寻找features,前几年被研究者应用到了nlp任务中,在文本分类等任务中取得了不错的效果。传统的word embedding对低频词并没有太好的效果,而本文将char embedding作为CNN的输入,用CNN的输出经过一层highway层处理表示word embedding,然后作为RNNLM的输入,避免了这个问题。而且之前的神经网络语言模型中绝大多数需要优化的参数是word embedding,而本文的模型则会将优化参数减少非常多。

本文模型的架构图如下:

可以分为三层,一层是charCNN,通过构建一个char embedding矩阵,将word表示成matrix,和图像类似,输入到CNN模型中提取经过filter层和max pooling层得到一个输出表示,然后将该输出放到Highway Network中,得到一个处理后的效果更好的word embedding作为输出,在第三层中是一个典型的RNN模型,后面的处理与传统方法一样了。

这里需要学习的参数中char embedding规模非常小,相对比之前的模型有非常明显的优势。这里需要说明的一点是HighWay Network,在Rupesh Kumar Srivastava的paper Training Very Deep Networks被提出,受lstm解决rnn梯度衰减问题的思路启发,用来解决训练very deep networks,因为模型越深效果越好,但越难训练。本文的HighWay层如下:

其中

t被称为transform gate,1-t被称为carry gate。

最终的实验证明,使用HighWay层效果比使用普通的MLP或者不使用该层效果更好。

本文通过将传统的word embedding降级到char level,避免了大规模的embedding计算和低频词的问题,通过Highway network技术构建更深的网络,得到了不错的结果。

来源:paperweekly

原文链接

时间: 2024-10-22 08:54:05

Character-Aware Neural Language Models的相关文章

(zhuan) Recurrent Neural Network

  Recurrent Neural Network  2016年07月01日  Deep learning  Deep learning 字数:24235   this blog from: http://jxgu.cc/blog/recent-advances-in-RNN.html    References Robert Dionne Neural Network Paper Notes Baisc Improvements 20170326 Learning Simpler Langu

(zhuan) Speech and Natural Language Processing

  Speech and Natural Language Processing obtain from this link: https://github.com/edobashira/speech-language-processing A curated list of speech and natural language processing resources. Other lists can be found in this list. If you want to contrib

GitHub项目:自然语言处理领域的相关干货整理

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域.本文作者为NLP初学者整理了一份庞大的自然语言处理领域的概览.选取的参考文献与资料都侧重于最新的深度学习研究成果.这些资源能为想要深入钻研一个NLP任务的人们提供一个良好的开端. 指代消解 https://github.com/Kyubyong/nlp_tasks#coreference-resolution 论文自动评分 论文:Automatic Text Scoring Using Neur

PaperWeekly 第七期

神经网络机器翻译(NMT)是seq2seq模型的典型应用,从2014年提出开始,其性能就接近于传统的基于词组的机器翻译方法,随后,研究人员不断改进seq2seq模型,包括引入注意力模型.使用外部记忆机制.使用半监督学习和修改训练准则等方法,在短短2年时间内使得NMT的性能超过了传统的基于词组的机器翻译方法.在27号谷歌宣布推出谷歌神经网络机器翻译系统,实现了NMT的首个商业化部署,使得NMT真正从高校实验室走向了实际应用.本期Paperweekly的主题是神经网络机器翻译下的字符级方法,主要用来

深度学习零基础进阶第四弹​|干货分享

雷锋网曾编译了<干货分享 | 深度学习零基础进阶大法!>系列,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)与深度学习如何应用在图片和语音识别上肯定也不在话下了.今天这一部分,我们将通过新一批论文,让你对深度学习在不同领域的运用有个清晰的了解.由于第三部分的论文开始向细化方向延展,因此你可以根据自己的研究方向酌情进行选择.雷锋网对每篇论文都增加了补充介绍.这一弹主要从自然语言处理以及对象检测两方面的应用进行介绍. 本文编译于外媒 github,原文标

深度学习零基础进阶第四弹!|干货分享

编者按:时隔一段时间,雷锋网独家奉送的深度学习零基础进阶第四弹又来了!经过前面三篇文章的研究和学习,相信大家在深度学习的方式与深度学习在不同领域的运用都有了一定的了解.而本次雷锋网(公众号:雷锋网)所推荐的论文,主要集中于自然语言处理层面,相对于此前比较枯燥的理论阶段,相信以下的内容会更能让初学者们有的放矢.原文首发于 GitHub,作者 songrotek,文章名为<Deep-Learning-Papers-Reading-Roadmap>,雷锋网对每篇论文都增加了补充介绍,未经许可不得转载

如何加速神经语言模型训练?东北大学小牛翻译团队有妙招

本文为东北大学自然语言处理实验室(小牛翻译团队)成员肖桐.李垠桥为雷锋网(公众号:雷锋网)AI科技评论撰写的独家稿件,得到了其指点和审核,雷锋网在此表示感谢. 团队简介:东北大学自然语言处理实验室(小牛翻译团队)由姚天顺教授于1980年创立,长期从事机器翻译及语言分析方面的研究.小牛翻译团队所研发的NiuTrans系统开源版和小牛翻译企业版已经被来自  60 余个国家的2000多个机构使用,并支持44种语言的翻译.团队在CWMT.NTCIR等评测中取得多项第一.第二的成绩,发表AI.IJCAI.

Keras词级自然语言模型

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 语言模型是许多自然语言处理模型(如机器翻译和语音识别)中的关键元素,它可以根据给出的单词序列预测到序列中的下一个单词.在选择语言模型的框架时需要注意与语言模型的目的匹配. 本教程分为5个部分; 他们是: 1.语言建模框架. 2.模型1:单字输入,单字输出序列. 3.模型2:逐行序列. 4.模型3:双字输入,单字输出序列. 1.语言建模框架 语言模型是挑战自然语言处理问题(如机器翻译和语音识别)较大模型中的关键

126篇殿堂级深度学习论文分类整理 从入门到应用 | 干货

如果你有非常大的决心从事深度学习,又不想在这一行打酱油,那么研读大牛论文将是不可避免的一步.而作为新人,你的第一个问题或许是:"论文那么多,从哪一篇读起?" 本文将试图解决这个问题--文章标题本来是:"从入门到绝望,无止境的深度学习论文".请诸位备好道具,开启头悬梁锥刺股的学霸姿势. 开个玩笑. 但对非科班出身的开发者而言,读论文的确可以成为一件很痛苦的事.但好消息来了--为避免初学者陷入迷途苦海,昵称为 songrotek 的学霸在 GitHub 发布了他整理的深