《中国人工智能学会通讯》——1.24 智能答题

1.24 智能答题

通过评测,我们可以了解问答系统的准确程度,也能对各种问答系统的相对水平加以比较。不过,人们还想知道,这样的智能程度和人类相比,处于什么样的水平。这就要求问答系统和人类同场竞技。

2011 年 2 月,IBM 的超级电脑 Watson 在美国最受欢迎的智力竞猜电视节目《Jeopardy!》中,以绝对优势击败两名人类冠军级对手 , 继 IBM 的深蓝电脑在“人机大战”中战胜国际象棋冠军卡斯帕罗夫之后,再一次引起了全球轰动[11] 。《Jeopardy!》的问题类型基本上都是事实性问题,例如“奥利奥饼干是在哪个年代上市的?”,要求答题者有很好的记忆能力和一定的分析能力。Watson 能以 80% 的准确率回答 80%的竞猜题,这是非常了不起的。

Watson 的轰动,吸引了许多国家的研究机构开始进行智能答题的研究。2013 年,微软联合创始人 PaulAllen 投资成立了一家致力于完整解决人工智能问题的公司“Allen Institute for Artificial Intelligence”,简称AI2。在华盛顿大学教授 Oren Etzioni 的带领下,AI2计划制造出一台能够通过高中生物课程的电脑。AI2将向这台电脑输入教科书上的内容,之后对它进行考试。AI2 认为,假如他们的电脑可以通过高中生物考试的话,就会被认为在某种程度上“理解”了生物学,至少达到高中生水平[12] 。

在日本,国立情报学研究所的新井纪子组织了一个项目,研究在不远的未来,人工智能和机器学习能发展到什么程度。该项目的目标就是制造一个“Todai机器人”(日语把东京大学称作 Todai)。希望 Todai机器人在 2016 年能够通过相对简单的大学入学考试,到 2021 年能和报考东京大学的考生一较高低[13] 。要知道东京大学的入学考试难度很高:每年都有大约 50万考生参加由全日本的大学考试委员会命题的选择题考试,达到 60% 的正确率就能通过考试。而要参加东京大学的入学考试,学生们在这份试卷中至少需要达到 80% 的正确率,且与日本一般的入学考试不同,东京大学的考试非常严格,除了选择题之外,还包含大量的主观题。

Todai 机器人需要参加高考的各种科目,包括语言、数学、物理、历史等。以 Todai 的数学答题为例,为了用计算机求解入学考试的数学问题,研究人员需要首先将用自然语言和公式等人类容易理解的形式表达的数学问题文本,转化成计算机可执行的程序形式,之后调用数学问题求解工具来加以解答。目前他们已经可以尝试求解约 50% ~60%的数学高考题[14] 。智能答题甚至已经成为了NTCIR的评测项目之一。

自 2013 年的 NTCIR11 开始,NTCIR 会议设置了针对复杂问答的预研(pilot)项目[15] ,目前已经进行了两轮评测。为了便于全世界研究人员参加,组织者将日本高考的世界历史科目试题翻译为英文。参赛系统除了选择题之外,还必须回答判断题、填空题、简答题、简述题等各种题型。参赛系统可自由使用教科书、本体、百科等各种知识源,除了文本检索和信息提取之外,还必须实现上下文理解、文本推理、知识推理、短文写作等功能。在 NTCIR 的数据支持下,CLEF 继QA4MRE 之后也开展了高考答题评测。这些评测将智能答题的研究向全世界加以推广。

智能答题也是国内人工智能领域近年的热点研究方向。2015 年,国家科技部设立了“基于大数据的类人智能关键技术与系统”重点项目,科大讯飞作为项目牵头单位,联合 30 多家科研院校和企业共同负责项目的研发与实施,主要针对大数据所带来的新的技术与挑战,研究类脑计算关键技术和类人答题系统,目标是研制出能够参加中国高考并考取大学的智能机器人 【16】 。这里的“类人”答题,不仅要求给出的答案是中学生可以理解的,并且问题求解过程必须“类人”,这就对智能答题给出了更高的要求。

时间: 2024-10-30 10:55:36

《中国人工智能学会通讯》——1.24 智能答题的相关文章

中国人工智能学会通讯——数据助力智能驾驶体验

我个人的经历,之前也从事人工智能方面的工作,多数在语音识别研究和应用.从去年加入数据堂以来,专注于在AI数据.数据和人工智能之间的关系,我想大家都很了解,也不言而喻,数据是一个非常重要的方面.数据跟我们的算法之间是什么关系.我喜欢用这样一个比喻,数据是一个教材,算法像是一个老师,老师用教材去教导你未来想要产生的人工智能的任何一个应用,比如说在今天的论坛上--智能驾驶,智能驾驶就是智能应用的一个孩子. 我们先看一下智能驾驶,大家讲了很多在自动驾驶方面的事情,包括算法.硬件等.我想从另外一个角度,从

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量