《中国人工智能学会通讯》——1.23 国际评测

1.23 国际评测

自动问答的研究历史可以上溯到 50 时代,图灵首次提出用人机对话来检验机器智能。在 60 年代问答技术主要服务于数据库的自然语言界面,70 年代则聚焦于交互式对话系统,70 年代末开始转向阅读理解。自动问答系统的应用领域也从初期的实验领域拓展到开放领域,研究对象从当初的小规模语料库拓展到互联网。不过,受限于信息检索和自然语言处理的技术水平,以及标准问答语料库的匮乏,智能问答的进展不尽如人意。这一状况直到文本检索会议(TREC)开展问答评测之后才得以根本扭转。

TREC 是文本检索领域最权威的国际评测会议,由美国国家标准技术局(NIST)主持。这是一个一年一次的会议系列,开始于 1992 年,迄今已举办了 20 多次。其宗旨主要包括:通过提供规范的大规模语料和客观、公正的评测,来促进技术的交流、发展和产业化;发展对文本检索系统的评测技术等
[1] 。正因如此,TREC吸引了全世界信息检索研究机构的注意力。TREC 会议的评测项目一开始只有随机检索(AdHoc)和分流(Routing)两项,之后随着文本检索技术的不断发展,逐渐转向更新颖更热门的项目。1999年,TREC 首次开展了自动问答评测(TREC/QA) [2] 。通常意义下的文本检索输入的查询是关键词,返回的是相关文本。对于自动问答,输入的查询是问题,希望返回的不是整篇文本,而是在给定的语料库中检索并返回问题的直接答案。自此以后,众多研究者开始对问答系统产生了浓厚的兴趣,直到 2007 年的最后一次评测,QA 一直都是最受关注、参加机构最多的TREC 评测项目之一。

TREC/QA 任务考察三类不同的问题,即事实性(factoid)、列表类(list)和定义类(definition),然后用这三类问题的平均得分作为总体得分,对参评系统进行评价。事实性问题只有一个答案,而且答案一般都比较简短,往往用词语或词组即可回答,例如“珠穆朗玛峰有多高?”。列表类问题可能会有多个分布在不同文档的答案,例如“联合国安理会有哪些常任理事国?”除了答案之外,TREC/QA也要求给出证据,即答案所在的文档编号。定义类问题则要求系统返回一段描述文字作为答案 , 例如对于“南丁格尔是谁?”这样的问题,仅用几个词语无法完整回答,提出这类问题的用户往往希望系统能够提供更加详细的信息。TREC/QA 每年都会提供 500 道左右的测试问题,经过将近 10 年的评测,建立了含有数千道问题的题库,这些问题,以及对应的答案、答案模板和证据,成为了此后自动问答研究的标准语料库。研究人员在该语料库上训练和测试各种问答模型,先后提出了基于逻辑推理的方法[3] 、基于模板匹配的方法 [4] 、基于机器学习的方法[5]和基于数据余性的方法[6]等许多领先方法,极大促进了自动问答的研究水平。

除了对各种方法的性能加以比较之外,TREC/QA评测的另一项贡献是提出了适用于 QA 的评价指标。第一种指标是查准率(precision),指的是回答正确的问题占问题总数的百分比。在系统仅为每个问题提供一个答案时,可用这一指标进行评测,例如 2003 年、2004 年的 QA 评测都使用了该指标。而 2007 年的 QA评测则采用了查准率的一种变体,即将答案是否正确
进一步细化为全局正确、局部正确(文档集中存在该答案,但该答案并非是整个文档集中的最佳答案)、不确切(与正确答案有交集)、不正确、不支持(答案正确,但给出的证据不支持)5 种结果,并为每种结果设置不同的权重[7] 。

但在多数情况下,要求系统只能返回一个答案并不合理。就如搜索引擎,为一个查询返回多个结果是用户普遍接受的一种方式,因此也应允许问答系统为每道问题返回多个答案。根据经验,用户一般比较关注前 10 个答案。另一方面,第一个正确答案出现在哪个位置也在某种程度上反映了系统的性能。它出现在第 1 位还是第 10 位,或者在前 10 个答案中都没出现,对于用户来说是截然不同的体验。因此 TREC 除了查准率之外又提出了 MRR 指标(Mean ReciprocalRank),其计算公式如下[2] :

其中,n 为问题总数,RR i (Reciprocal Rank)是指问题 i 的第一个正确答案排序的倒数。比如问题 i 的第一个答案错误,而第二个答案正确,则 RR i 为 1/2;如果正确答案没有出现在前 10 位中则 RR i 为 0。

查准率和 MRR 是针对事实类问题的评价指标对于列表类问题,TREC 提出了实例查准率(instanceprecision)、实例查全率(instance recall)和F值等指标。对于某个列表类问题,实例查准率指的是问答系统给出的正确答案占给出的全部答案的比例,实例查全率指的是问答系统给出的正确答案的数量占所有正确答案的比例,F 值则是实例查准率和查全率的调和平均值。

定义类问题存在某种程度的“主观性”,为此TREC 提出了“两步走”的评价策略。在第一步,所有参赛系统提交答案,由评价员浏览所有的潜在答案,从中构建答案的“片段”。片段指的是问题正确答案的某个方面,例如,对于问题“南丁格尔是谁?”,可能的片段包括南丁格尔的生卒年月、国籍、教育水平、主要事迹等,这些片段彼此不相交也不能再进一步细分。在第二步,每个系统给出的答案也被人工细分为片段,从而可以计算出片段查准率和片段查全率。多名评价员独立构建答案的片段,这样还可以计算出片段的重要程度,被多名评价员认可的片段能得到更高的权重。

不同于检索、过滤等其他任务,TREC/QA 的评测需要更多的人力资源。除了给出答案之外,问答系统还必须给出答案的证据;评价员不仅要判断答案是否正确,还需要判定答案所在的文档是否能真正支持答案,避免投机取巧的系统从百科或知识库中直接查找答案,而非通过自动问答技术从文档库中提取。定义类问题所需要的人力就更多了。这种耗费巨大的评测,在 TREC 引入 QA 任务之前几乎是不可能实现的。国内的复旦大学、哈尔滨工业大学,中国科学院计算所、清华大学和北京大学等单位先后参加了TREC/QA 评测,都取得了不错的成绩。表 1 给出了在TREC/QA 评测的最后一年,也就是 2007 年排名前十位的系统,其中复旦大学取得了第三名。

除此之外,其他评测会议如 NTCIR 和 CLEF 也设置了问答评测项目,这些评测会议同样极大地推动了自动问答系统的相关研究,并在 TREC 之后接过了 QA评测的大旗。其中,NTCIR 是由日本学术振兴会和日本国立情报学研究所组织的评测,其特色是既关注日文和其他亚洲语言的检索和跨语言检索,也重视从文本检索到“信息”检索的转化,例如自动问答、自动文摘等[8] 。

CLEF 是由欧盟资助的一个评测会议系列,多语言、跨语言评测是它的主要特色[9] 。QA4MRE(Questionanswering for machine reading)是 CLEF所开展的一个评测项目[10] 。不同于从海量文档中查找问题的答案,QA4MRE 的主要目的就是提供一个通过问答和阅读理解测试来评测机器阅读系统的方法。该任务要求参评系统通过阅读文档,然后从可选答案中选择正确的答案。由于答案的来源只有单篇文档,无法利用语料库中可能存在的冗余信息,选择正确的答案可能需要复杂的文本推理过程,因而其难度超过了 TREC/QA。

时间: 2024-10-14 15:49:20

《中国人工智能学会通讯》——1.23 国际评测的相关文章

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——人工智能发展的思考

2016 年是充满了纪念意义的特殊的一年:80 年前的 1936 年,"人工智能之父"图灵提出了"可计算机器"的概念,为人工智能乃至现代信息科技奠定了基础:70年前的 1946 年,世界上第一台电子计算机ENIAC 在美国滨州诞生:60 年前的 1956年"人工智能"的概念首次被提出:50 年前的 1966 年,第一次颁发"图灵奖",到目前为止已经有 64 位获奖者:10 年前的2006 年,深度学习概念开始为大家所熟悉,并流

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人