7.8 什么是机器阅读理解
阅读理解对大部分人来说都不陌生。我们大都参加过高考,在大学里可能也都参加过四 / 六级英语考试,在语文、历史、地理等考试中阅读理解的题型经常出现。维基百科对于阅读理解的定义是:阅读理解是一种阅读一段文本并且对其进行分析,并能理解其中的意思的能力。而机器阅读理解顾名思义就是让机器具备文本阅读的能力,准确理解文本的语义,并正确回答给定的问题。
阅读理解任务中有三个核心的组成部分,一个是文档;还有一个是问题;最后一个是选项。其中文档通常为给定的一篇文档或者几段文本。而问题根据这个文本得来,对于每个问题,会提供四个选项,通常情况下只有一个选项是正确答案,系统被要求在阅读完给定文档后,根据所给问题,从四个选项中选择出正确答案。例如,在 MCTest [1] 数据集中,数据形式如图 1 所示。
机器阅读理解非常类似于传统的问答任务,其核心都是在考察机器的文本理解和推理能力。从这个角度上说,可以把机器阅读理解任务看作是问答系统的延伸。但是,机器阅读和传统问答仍然存在区别,主要在于,传统问答任务往往要求系统根据用户所提的问题,在海量文本库或大规模结构化知识库中检索、抽取或推理出相应的答案,大多数情况下会利用海量数据的冗余特性对答案进行检索和抽取;多考察系统的文本匹配、信息抽取的性能和水平。而在阅读理解任务当中,系统被要求回答一些非事实性的、高抽象的问题;同时,信息源被限定于给定的一篇文章,虽然可以利用一些已有背景知识,但是问题的答案往往来源于当前给定篇章中的文本。特别考察系统对于文本细致化的自然语言理解能力、已有知识的运用能力和推理能力。从这个角度上来说,相对于传统问答任务,机器阅读理解更具挑战。
时间: 2024-11-03 08:25:51