《中国人工智能学会通讯》——1.5 智能问答技术

1.5 智能问答技术

从早期的数字图书馆、专家系统到如今的搜索引擎,人们一直致力于追求快速、准确的信息获取方法。目前,网络上的数据资源浩如烟海、错综复杂,而用户的信息需求又千变万化、千姿百态,基于关键词组合的信息需求表示方式和基于浅层分析的语义分析这类传统的信息检索技术俨然不能满足当下用户的需求,智能问答技术通过对数据的深度加工和组织管理,以更自然的交互方式满足用户更精确的信息需求。

智能问答技术可以追溯到计算机诞生初期的上世纪五六十年代,其中,代表性的系统包括 Baseball [1]和 Lunar [2] 。Baseball 是最早的以“未来的人机交互将是以自然语言进行的交流方式”为目标构建的系统。Lunar 系统是为了方便月球地质学家查询、比较和分析美国阿波罗计划从月球带来的大量岩石和土壤分析数据而开发的问答系统。早期的这些系统大多针对特定领域而设计,一般处理的数据规模不大,因为只接受限定形式、限定领域的自然语言问句,也不需要强大的自然语言理解技术,其性能也与系统针对特定领域的定制程度相关。这类系统终归因为没有足够支撑应用的大量数据资源而难以被广泛应用。

进入到 20 世纪 90 年代,随着互联网技术的发展,人们希望利用日益丰富的网络数据资源解决智能问答中的数据匮乏问题,特别是随着 90 年代中期的 TREC -QA [3] 评测技术的推动,检索式问答技术取得了巨大的进展,这种系统的主要特点是:利用信息检索以及浅层自然语言处理技术从大规模本或网页库中抽取答案。但是,由于用户需求的多样性和自然语言的复杂性这种浅层的语义分析技术难以提取出有用的信息和准确理解用户查询意图 ( 比如,大部分检索式问答系统假设包含答案的句子至少含有一个问句中的词汇,但是这一假设在很多情况下不适用 ),因此这类检索式问答技术也未得到真实应用。

长期以来,阻碍智能问答技术发展的两大瓶颈是高质量的知识资源和精准的自然语言分析技术。随着Web2.0 的兴起,包括 Wikipedia 1 、ODP 2 等应用在内的众多基于用户协同生成内容(User-Generated Content,UGC) 的互联网服务产生了越来越多的高质量数据资源,以此为基础,大量的知识库以自动或半自动方式构建了起来(比如 Freebase 3 、YAGO 4 、DBpedia 5 等)。另外,随着 90 年代初统计机器学习方法和经验主义方法的兴起,自然语言处理中的各个任务都取得了突飞猛进的进展,无论是在基于语义分析的知识工程(如Reverb [4] )还是在大规模开放域问句深度理解方法都取得了长足的进步(如 SEMPRE [5] )。可以说,智能问答系统中所需要的知识资源和自然语言分析技术正逐步被科研人员解决。

近年来,不少智能问答产品取得的成果引起了社会公众对智能问答技术的关注,例如:IBM 研发的问答机器人 Watson 在美国智力竞赛节目《Jeopardy! 》中战胜人类选手;苹果公司研发的 Siri 系统在智能终端中的真实应用取得了良好的效果。实际上,Siri 系统内部的知识问答是提交给 WolframAlpha 6 处理的。Watson和 WolframAlpha 成功的关键因素包括:① 强大的知识资源:前者定义了自己的知识框架,并从大约 2 亿页的图书、新闻、电影剧本、辞海、文选和《世界图书百科全书》等资料中抽取知识,而后者对各个领域定义了自己的知识结构并抽取大量事实;② 深层语义分析技术:Watson 开发的 DeepQA 系统集成了统计机器学习、句法分析、主题分析、信息抽取、知识库集成和知识推理等深层技术。

值得注意的是,以智能问答技术为核心的智能聊天机器人近年来在国内发展的如火如荼,除了已面世的微软公司的“小冰”、百度公司的“度秘”和华为公司的“小诺”,众多企业和研究团体也在该领域发力突破。这类聊天机器人从目前来看虽然还不能解决太多真实信息需求,但是可以把智能问答的研究进展以用户喜闻乐见的方式带给大众是使其走向成熟的关键步骤。下面将介绍智能问答系统中涉及的主要关键技术:知识抽取、问句理解和知识推理。

时间: 2024-10-30 10:55:33

《中国人工智能学会通讯》——1.5 智能问答技术的相关文章

《中国人工智能学会通讯》——1.2 问答与智能信息获取

1.2 问答与智能信息获取 问答系统作为智能表征的研究领域,几十年来一直受到学术界的关注,国际评测 TREC 历经十余年对问答系统从几个方面进行了评测[4] .问答系统的发展杂问题的发展过程,逐步具有了更多的智能行为特性.这个过程并不是一个单纯的直线,而是反反复复螺旋式进步.早期的问答系统虽然可以回答特定类型的问题,但是覆盖度和鲁棒性都比较差,速度也比较慢,还不能很好地应用在真实的商业系统中. 互联网大数据的产生,使问答系统在几个方面获得了改善的机会.一个是信息源数据的丰富,使得从人工构建语料库

《中国人工智能学会通讯》——4.28 数据挖掘技术在电子数据取证中的应用

4.28 数据挖掘技术在电子数据取证中的应用 电子数据取证过程中会获得大量的证据数据,主要来源于三个方面,一是计算机主机系统方面的证据,主要包括来自硬盘.内存.外设中的数据:二是来自网络方面的证据,主要包括实时获取的网络通信数据流网络设备上产生的记录,以及网络安全设备上的日志和登录日志:三是来自其他数字设备的证据,如手机.手持电子设备.这些可疑数据的数据量非常庞大并且不断更新,面对这样庞大的.变化的数据,单纯依靠技术人员的经验去分析.去获取有用的证据是不现实的,需要借助工具从海量的数据中获取有用

中国人工智能学会通讯——数据助力智能驾驶体验

我个人的经历,之前也从事人工智能方面的工作,多数在语音识别研究和应用.从去年加入数据堂以来,专注于在AI数据.数据和人工智能之间的关系,我想大家都很了解,也不言而喻,数据是一个非常重要的方面.数据跟我们的算法之间是什么关系.我喜欢用这样一个比喻,数据是一个教材,算法像是一个老师,老师用教材去教导你未来想要产生的人工智能的任何一个应用,比如说在今天的论坛上--智能驾驶,智能驾驶就是智能应用的一个孩子. 我们先看一下智能驾驶,大家讲了很多在自动驾驶方面的事情,包括算法.硬件等.我想从另外一个角度,从

《中国人工智能学会通讯》——6.8 主要技术挑战和近期进展

6.8 主要技术挑战和近期进展 近年来,虽然实体链接技术取得了长足的进展,并得到了一定程度的应用.但是实体链接任务仍有很多问题尚未解决,需要进一步的研究和探索.以下列举几个实体链接的主要技术挑战及相关进展. 实体名的歧义性和多样性.歧义性和多样性是自然语言的固有属性,也是实体链接的根本难点所在.因此如何挖掘更多.更有效的消歧证据,设计更高性能的消歧算法,构建覆盖度更高的实体引用表仍然是实体链接系统的核心研究问题. 实体链接系统的效率.考虑到实体链接系统面向的文本规模(Web 网页集合)和大部分应

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进