1.24 智能答题
通过评测,我们可以了解问答系统的准确程度,也能对各种问答系统的相对水平加以比较。不过,人们还想知道,这样的智能程度和人类相比,处于什么样的水平。这就要求问答系统和人类同场竞技。
2011 年 2 月,IBM 的超级电脑 Watson 在美国最受欢迎的智力竞猜电视节目《Jeopardy!》中,以绝对优势击败两名人类冠军级对手 , 继 IBM 的深蓝电脑在“人机大战”中战胜国际象棋冠军卡斯帕罗夫之后,再一次引起了全球轰动[11] 。《Jeopardy!》的问题类型基本上都是事实性问题,例如“奥利奥饼干是在哪个年代上市的?”,要求答题者有很好的记忆能力和一定的分析能力。Watson 能以 80% 的准确率回答 80%的竞猜题,这是非常了不起的。
Watson 的轰动,吸引了许多国家的研究机构开始进行智能答题的研究。2013 年,微软联合创始人 PaulAllen 投资成立了一家致力于完整解决人工智能问题的公司“Allen Institute for Artificial Intelligence”,简称AI2。在华盛顿大学教授 Oren Etzioni 的带领下,AI2计划制造出一台能够通过高中生物课程的电脑。AI2将向这台电脑输入教科书上的内容,之后对它进行考试。AI2 认为,假如他们的电脑可以通过高中生物考试的话,就会被认为在某种程度上“理解”了生物学,至少达到高中生水平[12] 。
在日本,国立情报学研究所的新井纪子组织了一个项目,研究在不远的未来,人工智能和机器学习能发展到什么程度。该项目的目标就是制造一个“Todai机器人”(日语把东京大学称作 Todai)。希望 Todai机器人在 2016 年能够通过相对简单的大学入学考试,到 2021 年能和报考东京大学的考生一较高低[13] 。要知道东京大学的入学考试难度很高:每年都有大约 50万考生参加由全日本的大学考试委员会命题的选择题考试,达到 60% 的正确率就能通过考试。而要参加东京大学的入学考试,学生们在这份试卷中至少需要达到 80% 的正确率,且与日本一般的入学考试不同,东京大学的考试非常严格,除了选择题之外,还包含大量的主观题。
Todai 机器人需要参加高考的各种科目,包括语言、数学、物理、历史等。以 Todai 的数学答题为例,为了用计算机求解入学考试的数学问题,研究人员需要首先将用自然语言和公式等人类容易理解的形式表达的数学问题文本,转化成计算机可执行的程序形式,之后调用数学问题求解工具来加以解答。目前他们已经可以尝试求解约 50% ~60%的数学高考题[14] 。智能答题甚至已经成为了NTCIR的评测项目之一。
自 2013 年的 NTCIR11 开始,NTCIR 会议设置了针对复杂问答的预研(pilot)项目[15] ,目前已经进行了两轮评测。为了便于全世界研究人员参加,组织者将日本高考的世界历史科目试题翻译为英文。参赛系统除了选择题之外,还必须回答判断题、填空题、简答题、简述题等各种题型。参赛系统可自由使用教科书、本体、百科等各种知识源,除了文本检索和信息提取之外,还必须实现上下文理解、文本推理、知识推理、短文写作等功能。在 NTCIR 的数据支持下,CLEF 继QA4MRE 之后也开展了高考答题评测。这些评测将智能答题的研究向全世界加以推广。
智能答题也是国内人工智能领域近年的热点研究方向。2015 年,国家科技部设立了“基于大数据的类人智能关键技术与系统”重点项目,科大讯飞作为项目牵头单位,联合 30 多家科研院校和企业共同负责项目的研发与实施,主要针对大数据所带来的新的技术与挑战,研究类脑计算关键技术和类人答题系统,目标是研制出能够参加中国高考并考取大学的智能机器人 【16】 。这里的“类人”答题,不仅要求给出的答案是中学生可以理解的,并且问题求解过程必须“类人”,这就对智能答题给出了更高的要求。