SQuAD,斯坦福在自然语言处理的野心

真英雄,成名于少林寺武侠大会;好算法,验证在斯坦福公开数据。

武侠小说中一个公平且有影响力的平台,可以让侠之大者脱颖而出,科研也是,一个优秀的公开数据集可以让好算法脱颖而出,并同时让那些靠吹的算法身败名裂。本文将详细叙述今年目前为止自然语言处理界最重量级的数据集 SQuad。

1. SQuAD是什么?

SQuAD 是斯坦福大学于2016年推出的数据集,一个阅读理解数据集,给定一篇文章,准备相应问题,需要算法给出问题的答案。此数据集所有文章选自维基百科,数据集的量为当今其他数据集(例如,WikiQA)的几十倍之多。一共有107,785问题,以及配套的 536 篇文章。数据集的贡献者为斯坦福Percy Liang等人,Percy Liang是自然语言处理界的一位全才,在Semantic Parsing, QA, Optimization等多个领域都有重要贡献。

当前的公开数据集对比如下,MCTest,Algebra和Science是现在的三个公开的阅读理解数据集,我们可以看到Squad在数量上远远超过这三个数据集,这使得在这个数据集上训练大规模复杂算法成为可能。同时,相比于WikiQA和TrecQA这两个著名问答数据集,Squad也在数量上远远超过。而CNN Mail和CBT虽然大,但是这两个数据集都是挖空猜词的数据集,并不是真正意义上的问答。

2. 追赶ImageNet ,发力自动问答领域

这个数据集文章展现了着斯坦福做一个自然语言处理的ImageNet的野心,他很可能成为自然语言学术界未来至少一年内最流行的数据集。模型在这个数据集上做出好成绩,可以让自己的文章加分不少,被顶会录取的几率大大增加。如果读者想发顶会,且目前没有明确的研究方向,那么刷这个数据集是一条很好的道路。

于此同时,这个数据集也会为工业界做出贡献。之所以说会为工业界做出贡献,因为自然语言处理的研究风气和图像相比差一些,任务较多,且没有在paper里面附带代码的行业规则,导致很多工作无法重现,甚至有些人会连实验都不做,直接往图和表里面填数造一篇文章。而这个数据集学习了Imagenet,不给测试集,这样你就没法作弊,把代码交上来,我来给你跑,之后把测试集合上的水平评测出来,这样大家都公平,谁也别吹牛,谁也别作弊。此种环境有利于真正大贡献的工作得以浮现,例如Residual Network在去年席卷图像领域,在一个公平的环境下,以比其他对手好很多的效果呈现在了世人的面前。而SQuAD则是斯坦福在自然语言处理上,意图构建一个类似“ImageNet”的测试集合,分数实时在leaderboard上显示

这就让这个数据集有如下优势

  1. 测试出真正的好算法。尤其对于工业界,这个数据集是十分值得关注的,因为他可以告诉大家现在各个算法在“阅读理解”或者说“自动问答”这个任务上的排名。我们可以光看分数排名,就知道世界上哪个算法最好,不会再怀疑是作者做假了还是实现的不对
  2. 提供一个阅读理解的大规模数据集。由于之前的阅读理解数据集规模太小或者十分简单,用一个普通的深度学习算法就可以刷到90%度,所以并不能很好的体现不同算法优劣。

纵使SQuAD不会像ImageNet有那么大的影响力,但绝对也会在接下来的几年内对自动问答领域产生深远的影响,并且是各大巨头在自动问答这个领域上的兵家必争之地(IBM已经开始了)。

3. 如何构建 SQuad数据集?

接下来,让我们详细介绍这个数据集的构建(此数据集已经被EMNLP2016会议收录 https://arxiv.org/pdf/1606.05250.pdf),我们先感受一下这个数据集精美的界面。

从图中我们可以看到,在验证集合和测试集合的水平。其中测试集合需要你提交一个可以运行的程序。最后一名和第一名分别是作者做的baseline以及人来回答能达到的水平,我们可以看到虽然只发布一个月,新加坡一些大学和IBM公司已经在这个任务上进行了尝试。 下图就是这个数据集的一个样例,首先给定一篇文章,然后开始问问题,第一个问题“什么造成了降雨”答案是重力造成的。问题十分有难度,需要推理,不过答案仍然在文中出现过。

数据集的具体构建如下

1. 文章是随机sample的wiki百科,一共有536篇wiki被选中。而每篇wiki,会被切成段落,最终生成了23215个自然段。之后就对这23215个自然段进行阅读理解,或者说自动问答。

2. 之后斯坦福,利用众包的方式,进行了给定文章,提问题并给答案的人工标注。他们将这两万多个段落给不同人,要求对每个段落提五个问题。

3. 让另一些人对提的这个问题用文中最短的片段给予答案,如果不会或者答案没有在文章中出现可以不给。之后经过他们的验证,人们所提的问题在问题类型分布上足够多样,并且有很多需要推理的问题,也就意味着这个集合十分有难度。如下图所示,作者列出了该数据集答案的类别分布,我们可以看到 日期,人名,地点,数字等都被囊括,且比例相当。

4. 这个数据集的评测标准有两个,第一:F1,第二:EM。EM是完全匹配的缩写,必须机器给出的和人给出的一样才算正确。哪怕有一个字母不一样,也会算错。而F1是将答案的短语切成词,和人的答案一起算recall,Precision和F1,即如果你match了一些词但不全对,仍然算分。

5. 为了这个数据集,他们还做了一个baseline,是通过提特征,用LR算法将特征组合,最终达到了40.4的em和51的f1。而现在IBM和新加坡管理大学利用深度学习模型,均突破了这个算法。可以想见,在不远的将来会有更多人对阅读理解发起挑战,自然语言的英雄也必将诞生。甚至会有算法超过人的准确度。

自动问答超越人类,你准备好了?


本文作者:NLP日月星辰

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-19 10:13:16

SQuAD,斯坦福在自然语言处理的野心的相关文章

用于自然语言处理的数据集集锦

在开始研究自然语言处理深度学习的时候,你需要有数据集来练习编程. 最好使用小的数据集,因为下载速度比较快,并且不用花太长的时间来适应模型.此外,使用容易理解并且广泛使用的标准数据集也是有帮助的,这能让你对结果进行比较,看看自己是否取得了进展. 本文介绍了一套用于自然语言处理任务的标准数据集,在你研究深度学习的时候可以使用. 概述 本文分为7个部分,包括: 文本分类 语言建模 图像字幕 机器翻译 问题回答 语音识别 文档摘要 我提供了不少的数据集,它们在学术论文中的使用非常广泛.几乎所有的数据集都

斯坦福大学 NLP 组开放神经机器翻译代码库

近日,斯坦福大学自然语言处理组(Stanford NLP)发布了一篇文章,总结了该研究组在神经机器翻译(NMT)上的研究信息.在这篇文章中,他们还放出了在多种翻译任务上(比如英德翻译和英语-捷克语翻译)实现了当前最佳结果的代码库(codebase).除此之外,「为了鼓励再现和增加透明」,他们还放出了他们用于训练模型的处理过的数据以及可以通过他们的代码库使用的预训练好的模型. 参与成员: Christopher D. Manning(斯坦福大学计算机科学和语言学教授) Minh-Thang Luo

从短句到长文,计算机如何学习阅读理解

(从左至右:崔磊.韦福如.周明.杨南) 在电影<她(HER)>中有这样一幕:主人公是一位信件撰写人,人工智能操作系统萨曼莎在得到他的允许后阅读他的邮件资料,总结出需要保留和删除的邮件,帮助他修改信件草稿中的错字,并且与他探讨她喜爱的信件片段.与此同时,萨曼莎通过阅读主人公的海量信息来了解他,也通过阅读互联网上的海量数据来了解世界.阅读这项人类的基本能力,在众多科幻作品中也成了人工智能的入门标配.   尽管人工智能的热点此起彼伏,但毫无疑问的是,自然语言处理始终是实现智能.自然人机交互愿景里一块

数据至上的人工智能时代,哪些公开数据集最适合?

现如今构建人工智能或机器学习系统比以往的时候更加容易.普遍存在的尖端开源工具如 TensorFlow.Torch 和 Spark,再加上通过 AWS 的大规模计算力.Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型. 虽然不算是人工智能训练的最前沿,但人工智能的无名英雄确实就是数据,许多许多标注或未标注的数据.研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤. 然而,涉及到机器学习或人工智能的大多数产品强烈依赖于

Twitter是怎么做情感分析的?长文解读!

本文由北邮@爱可可-爱生活 老师推荐,阿里云组织翻译. 以下为译文 如今,微博已成为一种深受互联网用户欢迎的沟通工具.在那些提供微博服务的热门网站上,如Twitter.Tumblr和Facebook,每天都有数以百万的消息产生.这些消息的作者记录自己的生活,分享对不同话题的看法,并讨论当前的问题.由于消息格式不受限制以及微博平台易于访问,互联网用户倾向于从传统沟通工具(如传统的博客和邮件列表)转移到微博服务上来.随着越来越多的用户讨论自己使用的产品和服务,或表达自己的政治和宗教观点,微博网站已经

机器学习资料大汇总

机器学习资料大汇总 作者:我爱机器学习(52ml.net) 注:本页面主要针对想快速上手机器学习而又不想深入研究的同学,对于专门的researcher,建议直接啃PRML,ESL,MLAPP以及你相应方向的书(比如Numerical Optimization,Graphic Model等),另外就是Follow牛会牛paper,如果谁有兴趣也可以一起来整理个专业的汇总页.本页面将持续更新,敬请关注,如有推荐的文章请留言,谢谢! 000 开源工具 机器学习的开源工具 Python机器学习库 C++

不容错过的2017数据科学15大热门GitHub项目

介绍: GitHub现在不再仅仅是一个软件寄存管理器,而是软件工程师通过它来共享他们自己开发的工具/库,甚至这些资源对一些公司都很重要.作为一名狂热的数据科学爱好者,我总结了一系列在2017年尤为出名的知识库! 目录: 1.学习资源库: 1.Awesome Data Science 2.Machine Learning / Deep Learning Cheat Sheet 3.Oxford Deep Natural Language Processing Course Lectures 4.P

AI超大事件丨从研究到应用,这是一份2017年AI领域的最全面总结

2017年已经结束了,还有什么比回顾这一整年中AI的发展历程更激动人心的吗? AI大事件的作者Denny Britz梳理了2017整年的AI大事,人工智能从研究到应用领域的回顾,都在这篇AI超大事件里了. 强化学习在很多游戏上达到了超人表现 今年AI领域最成功的故事可能就是AlphaGo了(Nature论文),AlphaGo是一个强化学习代理,击败了世界上最好的国际象棋棋手. AlphaGo的第一个版本使用来自人类专家的训练数据进行引导,并通过自我对弈和蒙特卡洛树搜索进一步提升.不久之后,Alp

重磅启动!翻译斯坦福大学课程:深度学习与自然语言处理

像追美剧一样追课程! 大数据文摘已获得斯坦福大学深度学习课程CS224d的翻译授权,重磅启动"斯坦福深度学习课程CS224d"的翻译工程,所有译文将会免费发布,计划每周发布1篇.期待你的加入,加入要求见文末,报名请点击文末"阅读原文". 大数据文摘作品,转载需授权 作者|寒小阳 && 龙心尘 感谢@Fantzy同学的帮助  大数据文摘"机器学习"专栏介绍 本文为大数据文摘机器专栏推出的[数据科学/机器学习]学习分享项目启动篇,我们