《中国人工智能学会通讯》——1.22 如何评价智能问答系统

1.22 如何评价智能问答系统

长期以来，人工智能界乃至计算机界梦寐以求，希望让计算机拥有人类的智能，能够像人类一样进行高度自主的认知、学习、推理。这一梦想推动了过去五六十年来人工智能研究和开发的巨大进步。

如何验证计算机已经具有了“人类”的智能？图灵在 1950 年写了一篇论文《计算机器与智能》，提出了如下的判断原则：测试者在与被试（包括人和机器）隔开的情况下，通过键盘等装置向被试随意提问。经过一段时间，如果测试者不能确认所收到的答复来自人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。类似地，美国认知心理学家 G. M.Ulson 认为，判别计算机理解自然语言的四个标准是问答系统、文摘、复述和机器翻译。计算机只要达到以上标准之一，就认为它理解了自然语言。总而言之，问答是衡量人工智能水平的重要手段，问答系统的性能反映了人工智能系统的水平，因此问答技术的研究开发对于人工智能的发展有重要意义。

另一方面，人们自然而然就能想到，如何衡量智能问答的技术水平？哪些测试指标常用来评价问答系统？如今的智能回答能达到怎样的技术水准？接下来，本文将主要从评测和答题两个角度，对智能问答的评价方法加以介绍。需要说明的是，由于篇幅有限，本文所介绍的评价方法和评测手段将既不覆盖聊天机器人、语音助手和社区问答等系统，也不考虑问答的答题策略、人机交互和情感需求，而是聚焦于问题求解能力，要求对于给定的问题，不管来自开放域还是限定域，都能够直接给出问题的准确答案。

时间： 2024-09-03 20:29:19

《中国人工智能学会通讯》——1.22 如何评价智能问答系统

1.22 如何评价智能问答系统

《中国人工智能学会通讯》——1.22 如何评价智能问答系统的相关文章

中国人工智能学会通讯——大数据与认知智能

中国人工智能学会通讯——机器人组件技术在智能制造系统中的应用

中国人工智能学会通讯——面向知识图谱的自然语言问答系统 1 信息检索式的知识库问答

中国人工智能学会通讯——打造云上视觉智能生态 1.4 视觉智能实例：城市之眼

中国人工智能学会通讯——着力突破与创新实现超越与引领

中国人工智能学会通讯——2016机器智能前沿论坛召开

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

中国人工智能学会通讯——无智能，不驾驶——面向未来的智能驾驶时代 ( 下 )

中国人工智能学会通讯——深蓝、沃森与AlphaGo