专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步

近日,在斯坦福大学发起的SQuAD(Stanford Question Answering)数据集测试榜单中,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。在加拿大温哥华举办的ACL大会现场,雷锋网(公众号:雷锋网)对正在参加大会的科大讯飞研究院副院长王士进进行了专访,王士进不仅向雷锋网介绍了讯飞取得良好成绩的关键因素,还对在机器阅读理解领域的未来研发方向及产业化状况做了解答。王士进认为,机器阅读理解具有广阔的应用场景,目前的成绩只是万里长征的第一步,讯飞也会继续探索机器阅读理解技术落地应用的场景。

王士进:博士,科大讯飞北京研究院院长,兼科大讯飞研究院副院长。2003年本科毕业于中国科技大学,2008年博士毕业于中科院自动化所,长期从事语音、语言、人工智能方向研究,主持的语音评测技术国内首次应用大规模英语口语考试,主持的机器翻译曾两次获国际比赛第一名。作为主要负责人参加了863计划重点项目、工信部电子信息产业发展基金项目等项目,在相关国际会议和期刊上有多篇学术论文,拥有十几项专利和软件著作权。

以下是采访实录,雷锋网就全文进行了不改原意的删减:

Q:在SQuAD之前还有哪些类似的数据集?相比SQuAD有什么不足?

A:之前像Facebook、Google和微软都有一些类似的测试和数据集,但都没能起到像SQuAD这样的影响。

像Facebook,他的特点是用机器去自动生成一些问题,这样会有两个缺点:第一,机器生成的问题集合不大;第二,用机器生成问题,再用机器去学习,这样比较容易学到机器的Model;

Google Deepmind做过一个测试集,主要是在新闻领域上,主要是在新闻领域上,就是一个新闻前面有一个摘要,这个摘要和正文内容相近但又不完全一样,把这里面的一部分实体抠掉,然后就可以形成问题。缺点是有摘要的新闻数据不多;

还有微软,之前还做了一个比较小的数据集叫MCTest,它和斯坦福的SQuAD比较接近,主要问题是数据集比较小,只有一百多篇文章,两千来个问题。

所以大家为什么认为SQuAD是阅读理解的ImageNet?第一,它是通过众包采用人工做出来的问题,第二,这个数据集特别大,所以很多单位都在围绕着SQuAD做一些研究工作。

Q:阅读理解是NLP领域里一个比较关键的问题吗?

A:对,这是公认的一个难题,也是大家认为的一个非常重要的趋势。它隐含的首先是精准的问答,这其实是NLP里面一个比较经典的问题。我们知道的IBM

Watson在“危险边缘”和人类选手的PK,它其实更多的是知识的记忆,相对于机器,人很难记忆这么多的知识点,但反而在对一篇简单的文章的理解上机器还有着差距。

我们说一篇文章,它也可能有其他的形式,像在产品上就是一本说明书,在司法领域可能是一个电子卷宗,在医疗领域可能是一个人的病历。基于这个东西去问你一个问题你要给出一个答案,这是一个非常有意义,也是非常难的事情。所以国际大部分主流研究团队也在做这方面的工作,包括微软、Google、苹果、Facebook、百度、讯飞等。

Q:目前对于这种精准问答的研究进展到什么程度?

A:这方面大家也做了很多的工作,但从目前来看总体的效果还不是能让所有人满意。因为在认知推理方面,大家觉得现在机器还没有达到人所具备的真实能力,像我们开始定义这个问题的时候,我们给这个项目起名叫“六龄童”,按我们评价效果来看,我们找了很多六岁也就是小学一年级的孩子来做对比评价,基本我们比小学一年级的水平要高一点点。

Q:iMageNet竞赛已经有八年历史,而SQuAD近两年才出来,为什么会有这样的差别?

A:这与阅读理解技术的突破有关。早期在做“理解”的做法更多是基于模块去做,分析篇章和问题,然后拿分析的篇章和问题去找对应关系,这样做整体错误就会特别多,这也是这个领域整体技术进展不大的原因。而近一两年来随着深度学习技术在自然语言领域的应用,大家都用深度学习技术来训练、处理篇章和问题,开始取得了一些进展,所以大家才开始去做源头的东西也就是数据,斯坦福也是在这种潮流下推出的SQuAD。

Q:换言之,SQuAD的起点比ImageNet要高?

A:对。它主要是出来的时间晚一点,现在SQuAD才到第二年,大家的模糊匹配结果(F1-Score)已经普遍做到百分之八十多了,但大家认为这个事情希望做到百分之九十甚至以上的时候才能够接近人类。我估计现在可能再有一年左右的时间,精确匹配(Exact Match)和模糊匹配(F1-Score)就能够达到这样的水平。

Q:再往后呢?比如说,95%或者99%?

A:像ImageNet一样,它做到一定程度后可能就不会再做下去了。这有两种类型,一种是技术可能会基本解决现在的问题,然后会继续提出新的问题;另一种是在解决问题后会往产品化方向去做,例如我提到的电子卷宗和病历的例子。

科大讯飞也在做一些产品化方面的尝试。例如电子说明书,现在产品电子化程度越来越高,说明书越来越复杂,很多人在遇到问题的时候是不清楚的。我们也是把这块技术和我们原来的语音交互系统结合,你去问一些问题,可能是像天气或者听音乐这样的一些简单的问题,但也有可能是更深入的一些服务,例如医学推荐等更精确的解决方案。

Q:这次讯飞取得了第一名的成绩,采用的方法和其他参赛者有什么不同吗?

A:从大的方向看大家可能都差不多,主流的做法都是用深度学习。原来的做法是,它会给出一些训练集,包括包括篇章、问题和对应的答案,然后通过神经网络去学习,自动构建找到问题和答案的对应关系的一个方式。但我们做法有两点不一样的地方,一个是我们的“基于交互式层叠注意力模型”,一开始她可能先锁定住一些片段,然后通过多轮迭代的方式进行过滤,进一步锁定筛选出更精准的一些内容,去除整篇文章的干扰,最终得出问题的答案。

第二,我们采用了模型融合的方式。对于问题我们会提出不同的模型,然后对这些模型进行一个融合(ensamble)。因为我们知道,一般来说单一模型的性能并不是特别好,我们其实研究的是如何把多个不同机理的模型融合和在一起产生最好的效果。

我们在SQuAD这个数据集上面大概做了四个多月的时间。其他一些机构做得更久一些,像微软从这个数据集开始设计的时候就参与了,做了一年多了吧。其他还有像Salesforce、国内的浙大、复旦都有参加,成绩刷新得很快,基本两周或者一个月就会被刷新一次。

Q:所以现在可能就是在看,谁能够第一个突破一个比较重要的关口,比如说90%?

A:对。我们认为90%是一个比较重要的关口,再往后的话我们就看第二关,就是谁能够最先落地去应用。因为就这个数据集本身来说,到了90%以后意义可能并不是特别大,最关键的还是能够在真实的业务场景里面把这个技术尽快落地。现在的数据也很大,但相对于工业级的数据来说还是偏小。

Q:工业级的大数据大概会是怎样的一个量级?

A:像ImageNet这种数据量从科研角度来说还是很大的。可是到了工业级,比如说我们语音,工业级的数据量可能是原来的上百倍甚至上千倍,而且更重要的是,这是真实的数据,相对于科研上问When、Where、Who的问题,像How、Why这样更复杂的问题一定会更多,如何去解决这种真实的问题,我觉得我们这真是万里长征的第一步,拿现在的技术到工业应用上基本是不能直接用的。

Q : 除了这些现实应用的问题,讯飞在做这方面的研究还有遇到一些怎样的挑战,如何解决的?

A:从以单个词为答案的阅读理解到目前以文章片段(短语或句子)作为答案的阅读理解最大的不同是要精准的控制答案的边界。机器选择答案的边界容易多一个词或少一个词,这就会造成答案不够精准。而人在做这类阅读理解题的时候就不会出现这种问题,会去选择语义单元较为完整的文章片段。

我们在研究初期经常遇到这种问题,当时主要是通过对答案的边界词进行一些惩罚,例如对边界出现介词的情况惩罚等等。但在后期随着模型效果提升,此类问题得到逐步缓解,这种惩罚的收益就不那么明显了。

Q:那么解决问题的关键点是不是也是如何建模和调参数?讯飞在这方面有什么经验?

A:对,包含建模。我们虽然说神经网络是一个黑盒子,但最关键的是,这里面的技术是怎么去组合的。我们在网上也公开了我们自己的模型结构,这里面包含两个部分,第一是模型结构,决定了模型是否足够优秀来解决问题;第二就是参数调整,参数调整上我们也有很多细节,我们在这里就不展开了。

Q:讯飞已经做出了最好的阅读理解系统,在未来还有怎样的计划?

A:哈工大讯飞联合实验室曾先后在Google

DeepMind阅读理解公开数据测试集、Facebook阅读理解公开数据测试集取得世界最好成绩,本次在SQuAD测试集再获全球最佳,包揽了机器阅读理解权威测试集的“大满贯”。对讯飞来说,现在只是万里长征的第一步,讯飞会继续推进在自然语言领域更深层次的归纳、总结、推理的研究工作,往后讯飞也会在不同领域继续探索阅读理解技术应用落地的场景。

本文作者:岑大师

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-01 22:58:05

专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步的相关文章

从短句到长文,计算机如何学习阅读理解

(从左至右:崔磊.韦福如.周明.杨南) 在电影<她(HER)>中有这样一幕:主人公是一位信件撰写人,人工智能操作系统萨曼莎在得到他的允许后阅读他的邮件资料,总结出需要保留和删除的邮件,帮助他修改信件草稿中的错字,并且与他探讨她喜爱的信件片段.与此同时,萨曼莎通过阅读主人公的海量信息来了解他,也通过阅读互联网上的海量数据来了解世界.阅读这项人类的基本能力,在众多科幻作品中也成了人工智能的入门标配.   尽管人工智能的热点此起彼伏,但毫无疑问的是,自然语言处理始终是实现智能.自然人机交互愿景里一块

ACL2016最佳论文:CNN/日常邮件阅读理解任务的彻底检查

CNN/日常邮件阅读理解任务的彻底检查 联合编译:章敏,陈圳 摘要 NLP尚未解决的核心目标是,确保电脑理解文件回答理解问题.而通过机器学习系统,解决该问题的一大阻碍是:人类-注释数据的可用性有限.Hermann等人通过生成一个超过百万的实例(将CNN和日常邮件消息与他们自己总结的重点进行配对)来寻求解决方案,结果显示神经网络可以通过训练,提高在该任务方面的性能.本文中,我们对这项新的阅读理解任务进行了彻底的检测.我们的主要目标是,了解在该任务中,需要什么深度的语言理解.一方面,我们仔细的手动分

css-关于CSS3语法阅读理解

问题描述 关于CSS3语法阅读理解 -moz-linear-gradient( [ || ,]? , [, ]* ) 谁帮忙解说下: [ || ,]? , [, ]* 1.是什么编程语言. 2.表示看不懂所传参数. 3.希望能拆分解说. 不胜感激 解决方案 -moz-linear-gradient( [<point> || <angle>,]? <stop>, <stop> [, <stop>]* ) [<point> || <

PaperWeekly 第十九期 --- 新文解读(情感分析、机器阅读理解、知识图谱、文本分类)

引 本期的PaperWeekly一共分享四篇最近arXiv上发布的高质量paper,包括:情感分析.机器阅读理解.知识图谱.文本分类.人工智能及其相关研究日新月异,本文将带着大家了解一下以上四个研究方向都有哪些最新进展.四篇paper分别是: 1.Linguistically Regularized LSTMs for Sentiment Classification, 2016.11 2.End-to-End Answer Chunk Extraction and Ranking for Re

《C语言开发从入门到精通》一1.3 理解编译系统——学习的第一步

1.3 理解编译系统--学习的第一步 知识点讲解:光盘:视频\PPT讲解(知识点)\第1章\理解编译系统.mp4 C语言是一门DOS环境下的开发语言,在执行前需要先将其编译,才能正确运行执行结果.要想真正理解编译系统的原理,重要的是要理解何谓"编译".编译是一个过程,通过这个过程可以把高级语言变成计算机可以识别的二进制语言.计算机只认识1和0格式的二进制数据,编译程序可以把人们熟悉的语言换成二进制的形式. 要想通过编译把一个源程序翻译成目标程序,所做的工作过程分为如下5个阶段: (1)

《中国人工智能学会通讯》——7.8 什么是机器阅读理解

7.8 什么是机器阅读理解 阅读理解对大部分人来说都不陌生.我们大都参加过高考,在大学里可能也都参加过四 / 六级英语考试,在语文.历史.地理等考试中阅读理解的题型经常出现.维基百科对于阅读理解的定义是:阅读理解是一种阅读一段文本并且对其进行分析,并能理解其中的意思的能力.而机器阅读理解顾名思义就是让机器具备文本阅读的能力,准确理解文本的语义,并正确回答给定的问题. 阅读理解任务中有三个核心的组成部分,一个是文档:还有一个是问题:最后一个是选项.其中文档通常为给定的一篇文档或者几段文本.而问题根

让机器告诉你故事的结局应该是什么:利用GAN进行故事型常识阅读理解

论文作者 | 王炳宁,刘康,赵军(中科院自动化所) 特约记者 | 吴桐(东南大学) 深夜,父亲捧着故事书来到小儿子的床边,温柔的念到:"--王子看着躺在面前的睡美人,轻轻的俯身吻了下去--""爸爸,睡美人是还没醒吗?"父亲轻声地说:"刚才爸爸讲了什么来着,王子出发之前吃了四碗韭菜大蒜馅的饺子,所以睡美人终于还是忍不住醒了." 故事型常识阅读理解(Story Cloze Test (SCT))是近几年新提出的一个文本理解任务,在这个任务中,给定背景

上千篇文章肯定不会全部出现在考试的“阅读理解“中,我们依然要学习千年不变的语文课本,其实就是在学习一种”分析的思维“,一种”举一反三“的能力。

尽管做技术已经有不少年头了,不管是犹犹豫豫还是坚定不移,我们走到了现在,依然走在技术这条路上. 不管我们处于何种职位,拿着哪种薪水,其实,我们会是不是的问问自己"做技术到底可以做到那种地步",说的直白一点,其实我们很多人对技术这条路依然充满很多彷徨,不管我们的现状是多么的满意与辉煌. 最近一直招聘技术人员,见了很多求职的朋友,也和他们探讨了很多与职业发展,技术能力方面的问题,下面说下我个人的看法,和大家分享一下.   有很多的人总是一直在问"我搞.NET很多年了,但是感觉现在

《中国人工智能学会通讯》——7.9 机器阅读理解评测数据集

7.9 机器阅读理解评测数据集 现阶段,和阅读理解相关的数据集主要有以下五个. 1 . MCTest 微 软 研 究 院 的 研 究 员 Richardson et al [1] 在2013 年的 EMNLP 上发布了一个数据集.在这个数据集中,所有的文档都是一些叙述性的故事.它考察的推理能力被限定于一个 7 岁儿童可以接受的范围内,包含有许多常识性的推理,这些推理既包含事实性的,也包含非事实性的.这个数据集包含有两部分,一个是 MC160,还有一个是 MC500,分别包含 160 篇和 500