雷锋网(公众号:雷锋网) AI科技评论按:ACL 2017已经在加拿大温哥华拉开帷幕,本次会议收录论文创下历史新高,除了论文展示还有workshop和软件展示。Facebook的研究员也会在ACL 2017上展示他们的研究成果,他们究竟带来了什么,跟着雷锋网 AI科技评论往下看。
Facebook目前主要针对对话、文本表示和机器翻译进行了一些卓有成效的研究,并将在ACL上展示这几个方向的内容。
他们在ACL 2017上被收录的论文有如下几篇:
- A Convolutional Encoder Model for Neural Machine Translation (针对神经机器翻译的卷积编码器模型),by Jonas Gehring, Michael Auli, David Grangier, Yann N. Dauphin
- Automatically Generating Rhythmic Verse with Neural Networks(利用神经网络自动生成有韵律的诗歌),by Jack Hopkins, Douwe Kiela
- Enriching Word Vectors with Subword Information(使用子字信息丰富词汇向量),by Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov
- Reading Wikipedia to Answer Open-Domain Questions(阅读维基百科来回答开放性问题),by Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes
在理解对话上进行的研究
Facebook已经在最近的文章《为了理解对话进行的长期研究》中概述了对对话的研究。真正有效的对话系统将会成为一种辅助技术,例如可以通过自然语言与人进行交流的聊天机器人。
由斯坦福大学的Danqi Chen,Facebook AI研究员Adam Fisch, Jason Weston和Antoine Bordes共同发表的一篇论文《阅读维基百科来回答开放性的问题》中,他们试着让系统智能地回答以下问题:
17世纪奥斯曼帝国有多少个省?
美国哪个州的座右铭是“Live free or Die”?
Chadwick发现了原子中的哪个部分?
这些问题看起来是随机的,他们其实来自Facebook的问答(QA)训练数据集,Facebook已经用这个数据集来建立处理不限领域查询问题的系统了。在这里,维基百科是唯一的知识来源,系统需要能在一个条目中找出相关的文段来回答问题。要处理这项任务,需要解决多个挑战:大规模的机器阅读、文档检索(查找相关条目)和关于文本的机器理解(从这些条目中识别答案)。
这个系统对第一个答案的回答流程如下:
条目:奥斯曼帝国
段落:……在17世纪初,奥斯曼帝国包括32个省和许多属国。其中一些属国后来被并入了奥斯曼帝国,而另一些则在数百年的时间里获得了各种形式的自治权。
这项研究的一个关键要求是:让系统在遍历所有的QA数据集时,一直都具有良好的表现。
与许多计算上的挑战一样,为了构建一个完整的系统,需要将许多的方法结合起来。在这里的问答中涉及到搜索、远程监督和多任务学习这几种技术。
与自然语言处理(NLP)相关的研究工作
除了目前在智能体对话方面的取得的成果,Facebook在自然语言处理的研究上也取得了突破性的进展。他们针对文本处理开发了有效的方法和轻量级的工具,这些都是基于去年发布的FastText和随后发布的预训练单词向量模型,他们在之前的开源声明中有详述FastText。
FastText是一个用于文本理解的库,利用它可以轻松地学会word
embedding,容易得到效果卓群的分类器,目前已经被研究人员广泛采用。在ACL
2017上Facebook将要展示的《使用子字信息丰富词汇向量》一文中的系统就是基于FastText库构建的。
他们将在ACL 2017上展示《针对神经机器翻译的卷积编码器模型》一文,会讲解他们目前序列到序列的神经学习中最先进的软件架构——Fairseq。
除了在现场介绍论文,Facebook的研究员也随时欢迎业内人士来探讨,共同推进AI技术再攀高峰。
参加的workshop
CoNLL是由SIGNLL组织的计算自然语言学习会议,侧重于统计学、认知学和语法推理。Facebook在会上的海报上会展示Xian Qian and Yang Liu发表的《用于依存句法分析的非DNN特征的工程方法》一文。
在第二届Rep4NLP的workshop中,将展示Facebook研究员Holger
Schwenk和 Matthijs
Douze发表的《神经机器翻译学习联合多语言句子表征》一文。这届workshop由Facebook和DeepMind赞助,侧重于研究词义的向量空间模型、语义合成、NLP中的深度神经网络的应用和谱方法。同期将会举办一个论坛,论坛上会讨论这些问题的最新进展和NLP中基于语义的向量模型未来的研究方向。
RoboNLP(机器人学中的基础语言研究)研讨会上将汇聚NLP、机器人和视觉研究领域的相关研究人员,探讨目前迫切需要解决的面向任务的基础语言研究。
除了论文的展示和研讨,Facebook也试图加速智能聊天机器人的研究工作,公开征集研究建议。他们在Facebook research blog中表示:
如何让聊天机器人更加智能是研究中的关键挑战,Facebook正竭尽全力加速研究:创建和分享相关的工具,鼓励对这一基础架构进行探索和扩展的相关研究工作。
Facebook今年发布的ParlAI是一个可以在很多公开可用的对话数据集上使用开源的能学习的智能体训练和评估AI模型的统一平台。
这个平台是对最近发布的CommAI(通过越来越多的复杂任务开发通用人工智能的基于沟通的环境)的补充。
Facebook热烈欢迎大学的研究团队积极响应,对基于ParlAI训练的聊天机器人和对话系统提出相应的研究建议,同时也希望他们对智能体的研究献出一份力,例如进一步研究效果很好的模型,或者增加对训练和评估智能体有用的任务。
雷锋网 AI科技评论 编辑整理
论文地址:
Automatically
Generating Rhythmic Verse with Neural
Networks(https://research.fb.com/publications/automatically-generating-rhythmic-verse-with-neural-networks/)
Enriching
Word Vectors with Subword
Information(https://research.fb.com/publications/enriching-word-vectors-with-subword-information-2/)
Reading Wikipedia to Answer Open-Domain Questions(https://research.fb.com/publications/reading-wikipedia-to-answer-open-domain-questions/)
Learning
Multilingual Joint Sentence Embeddings with Neural Machine
Translation(https://research.fb.com/publications/learning-multilingual-joint-sentence-embeddings-with-neural-machine-translation/)
本文作者:思颖
本文转自雷锋网禁止二次转载,原文链接