《中国人工智能学会通讯》——1.12 研究热点

1.12 研究热点

下面从社区问答系统的三个元素(问题、答案、社区)出发,对当前的研究热点进行简单介绍。表 1列出了社区问答系统中比较具有代表性的研究问题。

1 . 问题相关研究

(1) 相似问题检索

相似问题检索(Question Retrieval)是指给定用户提交的查询问题(Queried Question),从已有历史问题答案库中,检索出与查询问题在语义上相同或相似的历史问题(Historical Question),并将这些问题及其答案返给用户。如果用户能很快找到满意的相似问题及其答案,这样不但可满足用户的信息需求,节省用户的等待时间,提高系统的用户体检,而且还可以避免用户的重复提交。因此,对相似问题检索进行深入研究具有非常重要的意义。相似问题检索所面临的最大挑战是解决查询问题与历史问题之间的词汇鸿沟问题[1-2] 。在已有研究工作中,具有代表性的方法主要包括基于翻译建模的检索模型[2-3] 、基于话题建模的检索模型[4-5] 、基于结构建模的检索模型 [6-7] 、基于深度学习的检索模型[8-10] 。除了缓解相似问题检索中词汇鸿沟的问题,还有一些研究工作[11-14] 提出不同的方法,利用问题的叶子类别信息,增强相似问题检索的性能。

(2) 问题分类

问题分类(Question Classification)作为挖掘社区问答系统中用户查询问题意图的重要手段,引起了广泛的研究。许多研究人员根据不同的任务需求,定义不同的分类目标,对问题进行分类。Li 等人在文献 [15]中将问题的主客观判断定义为一个分类任务。Liu 等人在文献 [16] 中将问题的紧急性判断定义为一个分类任务。Pal 等人在文献 [17] 中将问题答案对的期效性定义为一个分类任务。Cai 等人在文献 [18] 中提出将问题分类到社区问答系统中预定的层次分类体系中。

2 . 答案相关研究

(1) 答案质量预测

由于社区问答系统的开放性,问题和答案均由用户产生,内容质量参差不齐。能否自动从众多的候选答案中检测出高质量答案,将直接影响用户体验。通常,答案质量预测(Answer Quality Prediction)被描述为分类问题,所抽取的特征包括内容的文本特征、用户活跃度等非文本特征。常用的分类器包括最大熵模型[19] 、决策树[20]以及层次分类器[21-22] 。

(2) 答案摘要生成

在社区问答系统中,通常一个问题只有一个最佳答案,并且该最佳答案由提问者从用户回答的多个答案中选出或者由社区用户投票产生。然而,Liu等人在文献[23]中的分析表明,尽管大多数选出的最佳答案是可重用的,但其中有近乎一半并非唯一的最佳答案;特别是开放性问题和观点性问题通常会有多个比较好的答案。为了充分利用其他用户给出的答案,更全面地满足提问者的信息需求,文献 [23] 利用自动文摘技术对问题的多个答案进行摘要生成,并针对不同类型的问题提出了不同的摘要生成方法。Tang 等人在文献 [24] 中提出了一个最大覆盖模型,对答案进行摘要生成。Sakai 等人在文献 [25]中利用自动文摘和自动问答评价技术,提出了包含多个评价标准和分级相关的分级体系。

3 . 社区相关研究

(1) 问题路由

问题路由是将提问者新提交的问题推送给潜在的对该问题有兴趣,并最有可能提供答案的回答用户来回答,从而使新提交问题能够在较短的时间内得到回答。问题路由的关键在于如何对用户的专业知识进行建模。传统的思路主要考虑使用用户曾经回答过的所有问题来衡量用户的专业知识,并分别提出了基于语言模型建模的方法[26] 、基于话题建模的方法 [27-28] 。此外,Zhou 等人在文献 [29] 中将问题路由看成一个分类任务,即确定一个用户是否有能力回答当前问题。Ji等人在文献 [30] 中利用回答者与提问者之间的偏序关系,提出了一种基于排序学习的问题路由方法。而 Xu等人在文献 [28] 中系统考虑了不同用户角色对结果的影响。考虑到用户的专业知识及其兴趣会随着时间的推移发生变化,Yeniterzi 等人在文献 [31] 中首次提出一种动态的用户建模方法来进行问题路由。

(2) 专家推荐

专家推荐(Expert Recommendation)是从众多的专家用户中,找出能够对提问者新提交问题提供比较高质量、完整并且可信的答案的用户,并且将新提交问题推送给这些排名靠前的专家用户去回答,从而使提问者能够得到满意的答案。专家推荐与问题路由明显不同的是,此时的任务重点强调挖掘社区用户中的专家用户以向提问者的问题提供高质量的答案;而问题路由的任务重点则强调挖掘社区用户中的所有潜在回答者以使得提问者的问题在较短的时间得到回答,但不一定是高质量的答案。前者强调答案的质量,而后者则更强调回答的时效性。Liu 等人在文献 [32] 中首次提出该研究问题,并提出将查询似然语言模型和基于话题建模的模型进行结合,同时融入了用户权威度和用户活跃度信息来将问题推送给排名靠前的专家用户来回答。Riahi 等人在文献 [33] 中提出了一个新的话题模型,对用户的配置文件进行建模,并使用该模型将新问题推送给专家用户来回答。Yang等人在文献[34]
中使用问题的标签信息对用户进行建模,并取得了非常有效的专家推荐性能。

时间: 2024-10-30 23:38:06

《中国人工智能学会通讯》——1.12 研究热点的相关文章

《中国人工智能学会通讯》——12.54 知识图谱应用

12.54 知识图谱应用 Google 最初提出知识图谱是为了增强搜索结果,改善用户搜索体验,知识图谱的应用远不止这些,基于知识图谱的服务和应用是当前的一大研究热点.按照应用方式可以分为语义搜索.知识问答,以及基于知识的大数据分析与决策等. 语义搜索:利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容,主要包括 RDF 和 OWL 的语义搜索引擎和基于链接数据的搜索等[35] .语义搜索利用建立大规模知识库对用户搜索关键词和文档内容进行语义标注,改善搜索结果[

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

《中国人工智能学会通讯》——12.32 基于众包的知识库补全研究

12.32 基于众包的知识库补全研究 近些年来,大规模知识库构建逐渐成为学术界和工业界广泛关注的热点.一批大规模知识库得以构建,并得到了迅猛的发展,这其中包括学术界构建的知识库 YAGO [1] .NELL [2] .DBpedia [3]和 DeepDive [4] ,工业界开发的 Freebase [5] .谷歌公 司 的 Knowledge Graph [6] .Wolfram Alpha [7] , 以及特定领域的知识库 , 如医疗领域的 UMLS [8] .这些知识库包含了数以亿计的真

《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

12.43 分类型数据聚类算法研究进展 在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] .在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] .比如,在问卷调查中,客户的兴趣爱好.家庭住址.教育情况都是分类型变量:在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件:在医学中,一个病人受伤的程度可分为轻微的.中度的和严重的:在市场营销中,经常将客户分为高.中.低

《中国人工智能学会通讯》——12.20 核心研究问题与研究现状任务分配

12.20 核心研究问题与研究现状任务分配 任务分配指时空众包平台根据任务和参与者的时空属性和其他相关信息,为每个任务分配适当的众包参与者.现存研究根据不同应用场景下任务分配的具体需求,通常采用二分图匹配模型和任务规划模型这两种算法模型对该问题进行建模. (1)基于匹配的分配模型 在每次为众包参与者分配一项任务的应用场景下,如滴滴出行等专车类服务,可使用基于匹配的分配模型.具体而言,该模型将任务分配问题规约为最大化或最小化加权二分图匹配问题[20] .根据任务实时性要求的差异,该模型又可分为静态

《中国人工智能学会通讯》——12.55 结束语

12.55 结束语 知识图谱技术是人工智能知识表示和知识库在互联网环境下的大规模应用,显示出知识在智能系统中重要性,是实现智能系统的基础知识资源.纵观知识图谱研究发展的相关研究现状,以下研究将成为未来知识图谱必须应对的挑战:① 研究知识表示和获取的新理论和方法,使知识既具有显式的语义定义,又便于大数据下的知识计算:② 随着信息技术从信息服务向知识服务的转变,研究建立知识图谱构建的平台,以服务不同的行业和应用:③ 知识图谱虽然已经在语义搜索和知识问答等应用中展示出一定的威力,但是基于知识图谱的应用

《中国人工智能学会通讯》——12.8 序列模式挖掘趋势展望

12.8 序列模式挖掘趋势展望 近年来,数据挖掘会议和期刊中将模式与统计结合成为较热门的研究方向[47-49] ,通过统计方法对数据模式进行剪枝.判断模式的"有趣性"成为热点.例如,Nakagawa 等人[50]提出基于统计的安全剪枝规则对数据模式进行剪枝:Tatti [47] 提出的基于概率的划分模型 , 可以根据所预测的"有趣性"对无间隔的频繁情景模式进行排序.此外,在数据库会议和期刊中,面向大规模数据的具有高可扩展能力的序列模式挖掘算法也不断发表[33,51]

中国人工智能学会通讯——三维视觉研究及应用 1.3 最近几年的工作

1.3 最近几年的工作 我是来自模式识别国家重点实验室的机器人视觉组,我们研究组专注于三维计算机视觉有20年的历史,在理论方面.在三维视觉的各个方面都有系统性的深入积累,除了发表在视觉领域顶级期刊.顶级会议的论文外,还有在国内外的竞赛中拿第一名的成绩,还有国内外专利的申请与授权.中英文专著的出版.另外,我们也追求技术的应用,我们和国内外的企业有长期合作. 1. 图像匹配 (1)图像描述子的提取 图像匹配里一个重要的工作,就是对图像描述子的提取.我们让一张图像参与计算,首先让图像里的一些特征进行代

《中国人工智能学会通讯》——12.59 基于模糊性的半监督学习

12.59 基于模糊性的半监督学习 假设 A 是一个大数据集,并且 A 中的大部分样例没有类标:B 是 A 中一小部分样例组成的集合,并且 B 中的每个样例都有类标.利用数据集 B 我们可以训练得到分类器,但我们不能保证这样的分类器对 A-B 中的样例有较好的预测结果.基于对数据集 A-B 中的每个样例的预测结果,我们想从 A-B 中挑选出一些样例(连同对这些样例的预测结果)加入到数据集 B 中.再次利用 B 进行训练得到的分类器对于 A-B 中样例的预测精度将会有所提升.此刻需要明确的关键问题

《中国人工智能学会通讯》——12.51 现有知识图谱资源

12.51 现有知识图谱资源 知识图谱经历了由人工和群体智慧构建,到面向互联网利用机器学习和信息抽取技术自动获取的过程.根据信息来源和获取方式的不同,目前的知识图谱分为以下几类. 依靠人工构建的知识资源 早期知识资源建立是通过人工添加和群体智能合作编辑得到,如英文 Wordnet [1] 和 Cyc 项目[2] ,以及中文的Hownet.Cyc 是一个通用的世界知识库,始建于 1984 年,其目的是将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等人工智能相关任务.Cyc 包含了 5