近日,在斯坦福大学发起的SQuAD(Stanford Question Answering)数据集测试榜单中,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。在加拿大温哥华举办的ACL大会现场,雷锋网(公众号:雷锋网)对正在参加大会的科大讯飞研究院副院长王士进进行了专访,王士进不仅向雷锋网介绍了讯飞取得良好成绩的关键因素,还对在机器阅读理解领域的未来研发方向及产业化状况做了解答。王士进认为,机器阅读理解具有广阔的应用场景,目前的成绩只是万里长征的第一步,讯飞也会继续探索机器阅读理解技术落地应用的场景。
王士进:博士,科大讯飞北京研究院院长,兼科大讯飞研究院副院长。2003年本科毕业于中国科技大学,2008年博士毕业于中科院自动化所,长期从事语音、语言、人工智能方向研究,主持的语音评测技术国内首次应用大规模英语口语考试,主持的机器翻译曾两次获国际比赛第一名。作为主要负责人参加了863计划重点项目、工信部电子信息产业发展基金项目等项目,在相关国际会议和期刊上有多篇学术论文,拥有十几项专利和软件著作权。
以下是采访实录,雷锋网就全文进行了不改原意的删减:
Q:在SQuAD之前还有哪些类似的数据集?相比SQuAD有什么不足?
A:之前像Facebook、Google和微软都有一些类似的测试和数据集,但都没能起到像SQuAD这样的影响。
像Facebook,他的特点是用机器去自动生成一些问题,这样会有两个缺点:第一,机器生成的问题集合不大;第二,用机器生成问题,再用机器去学习,这样比较容易学到机器的Model;
Google Deepmind做过一个测试集,主要是在新闻领域上,主要是在新闻领域上,就是一个新闻前面有一个摘要,这个摘要和正文内容相近但又不完全一样,把这里面的一部分实体抠掉,然后就可以形成问题。缺点是有摘要的新闻数据不多;
还有微软,之前还做了一个比较小的数据集叫MCTest,它和斯坦福的SQuAD比较接近,主要问题是数据集比较小,只有一百多篇文章,两千来个问题。
所以大家为什么认为SQuAD是阅读理解的ImageNet?第一,它是通过众包采用人工做出来的问题,第二,这个数据集特别大,所以很多单位都在围绕着SQuAD做一些研究工作。
Q:阅读理解是NLP领域里一个比较关键的问题吗?
A:对,这是公认的一个难题,也是大家认为的一个非常重要的趋势。它隐含的首先是精准的问答,这其实是NLP里面一个比较经典的问题。我们知道的IBM
Watson在“危险边缘”和人类选手的PK,它其实更多的是知识的记忆,相对于机器,人很难记忆这么多的知识点,但反而在对一篇简单的文章的理解上机器还有着差距。
我们说一篇文章,它也可能有其他的形式,像在产品上就是一本说明书,在司法领域可能是一个电子卷宗,在医疗领域可能是一个人的病历。基于这个东西去问你一个问题你要给出一个答案,这是一个非常有意义,也是非常难的事情。所以国际大部分主流研究团队也在做这方面的工作,包括微软、Google、苹果、Facebook、百度、讯飞等。
Q:目前对于这种精准问答的研究进展到什么程度?
A:这方面大家也做了很多的工作,但从目前来看总体的效果还不是能让所有人满意。因为在认知推理方面,大家觉得现在机器还没有达到人所具备的真实能力,像我们开始定义这个问题的时候,我们给这个项目起名叫“六龄童”,按我们评价效果来看,我们找了很多六岁也就是小学一年级的孩子来做对比评价,基本我们比小学一年级的水平要高一点点。
Q:iMageNet竞赛已经有八年历史,而SQuAD近两年才出来,为什么会有这样的差别?
A:这与阅读理解技术的突破有关。早期在做“理解”的做法更多是基于模块去做,分析篇章和问题,然后拿分析的篇章和问题去找对应关系,这样做整体错误就会特别多,这也是这个领域整体技术进展不大的原因。而近一两年来随着深度学习技术在自然语言领域的应用,大家都用深度学习技术来训练、处理篇章和问题,开始取得了一些进展,所以大家才开始去做源头的东西也就是数据,斯坦福也是在这种潮流下推出的SQuAD。
Q:换言之,SQuAD的起点比ImageNet要高?
A:对。它主要是出来的时间晚一点,现在SQuAD才到第二年,大家的模糊匹配结果(F1-Score)已经普遍做到百分之八十多了,但大家认为这个事情希望做到百分之九十甚至以上的时候才能够接近人类。我估计现在可能再有一年左右的时间,精确匹配(Exact Match)和模糊匹配(F1-Score)就能够达到这样的水平。
Q:再往后呢?比如说,95%或者99%?
A:像ImageNet一样,它做到一定程度后可能就不会再做下去了。这有两种类型,一种是技术可能会基本解决现在的问题,然后会继续提出新的问题;另一种是在解决问题后会往产品化方向去做,例如我提到的电子卷宗和病历的例子。
科大讯飞也在做一些产品化方面的尝试。例如电子说明书,现在产品电子化程度越来越高,说明书越来越复杂,很多人在遇到问题的时候是不清楚的。我们也是把这块技术和我们原来的语音交互系统结合,你去问一些问题,可能是像天气或者听音乐这样的一些简单的问题,但也有可能是更深入的一些服务,例如医学推荐等更精确的解决方案。
Q:这次讯飞取得了第一名的成绩,采用的方法和其他参赛者有什么不同吗?
A:从大的方向看大家可能都差不多,主流的做法都是用深度学习。原来的做法是,它会给出一些训练集,包括包括篇章、问题和对应的答案,然后通过神经网络去学习,自动构建找到问题和答案的对应关系的一个方式。但我们做法有两点不一样的地方,一个是我们的“基于交互式层叠注意力模型”,一开始她可能先锁定住一些片段,然后通过多轮迭代的方式进行过滤,进一步锁定筛选出更精准的一些内容,去除整篇文章的干扰,最终得出问题的答案。
第二,我们采用了模型融合的方式。对于问题我们会提出不同的模型,然后对这些模型进行一个融合(ensamble)。因为我们知道,一般来说单一模型的性能并不是特别好,我们其实研究的是如何把多个不同机理的模型融合和在一起产生最好的效果。
我们在SQuAD这个数据集上面大概做了四个多月的时间。其他一些机构做得更久一些,像微软从这个数据集开始设计的时候就参与了,做了一年多了吧。其他还有像Salesforce、国内的浙大、复旦都有参加,成绩刷新得很快,基本两周或者一个月就会被刷新一次。
Q:所以现在可能就是在看,谁能够第一个突破一个比较重要的关口,比如说90%?
A:对。我们认为90%是一个比较重要的关口,再往后的话我们就看第二关,就是谁能够最先落地去应用。因为就这个数据集本身来说,到了90%以后意义可能并不是特别大,最关键的还是能够在真实的业务场景里面把这个技术尽快落地。现在的数据也很大,但相对于工业级的数据来说还是偏小。
Q:工业级的大数据大概会是怎样的一个量级?
A:像ImageNet这种数据量从科研角度来说还是很大的。可是到了工业级,比如说我们语音,工业级的数据量可能是原来的上百倍甚至上千倍,而且更重要的是,这是真实的数据,相对于科研上问When、Where、Who的问题,像How、Why这样更复杂的问题一定会更多,如何去解决这种真实的问题,我觉得我们这真是万里长征的第一步,拿现在的技术到工业应用上基本是不能直接用的。
Q : 除了这些现实应用的问题,讯飞在做这方面的研究还有遇到一些怎样的挑战,如何解决的?
A:从以单个词为答案的阅读理解到目前以文章片段(短语或句子)作为答案的阅读理解最大的不同是要精准的控制答案的边界。机器选择答案的边界容易多一个词或少一个词,这就会造成答案不够精准。而人在做这类阅读理解题的时候就不会出现这种问题,会去选择语义单元较为完整的文章片段。
我们在研究初期经常遇到这种问题,当时主要是通过对答案的边界词进行一些惩罚,例如对边界出现介词的情况惩罚等等。但在后期随着模型效果提升,此类问题得到逐步缓解,这种惩罚的收益就不那么明显了。
Q:那么解决问题的关键点是不是也是如何建模和调参数?讯飞在这方面有什么经验?
A:对,包含建模。我们虽然说神经网络是一个黑盒子,但最关键的是,这里面的技术是怎么去组合的。我们在网上也公开了我们自己的模型结构,这里面包含两个部分,第一是模型结构,决定了模型是否足够优秀来解决问题;第二就是参数调整,参数调整上我们也有很多细节,我们在这里就不展开了。
Q:讯飞已经做出了最好的阅读理解系统,在未来还有怎样的计划?
A:哈工大讯飞联合实验室曾先后在Google
DeepMind阅读理解公开数据测试集、Facebook阅读理解公开数据测试集取得世界最好成绩,本次在SQuAD测试集再获全球最佳,包揽了机器阅读理解权威测试集的“大满贯”。对讯飞来说,现在只是万里长征的第一步,讯飞会继续推进在自然语言领域更深层次的归纳、总结、推理的研究工作,往后讯飞也会在不同领域继续探索阅读理解技术应用落地的场景。
本文作者:岑大师
本文转自雷锋网禁止二次转载,原文链接