《中国人工智能学会通讯》——7.24 现今知识图谱应用的挑战和展望

7.24 现今知识图谱应用的挑战和展望

知识图谱本身仍是一个快速发展的领域。它在搜索引擎中的应用更是刚刚起步。这里,笔者根据自身在这个方向研究过程中的经验和体会,总结出两个目前最直接对知识图谱在搜索引擎中使用的挑战,以及对这个方向将来发展的展望。

知识图谱和自然语言的对接

目前几乎所有相关工作都需要首先将知识图谱和文本数据对接起来。本文介绍了三种目前有效的主流方法,即查询词条实体标注、实体搜索和文档实体标注。但是这三种技术本身都是正在发展的技术,各自的精确度并非可以完全被依赖。

目前文档的实体标注在网页上大约只能达到0.6 左右的精确度和召回率。而查询词条更短、更有歧义性。之上的实体标注效果要进一步打折扣。可能平均下来每两个实体标注里就有一个是噪声。实体搜索更是刚刚起步,精确度(P@10)远低于0.5。这些噪声给后续的应用带来了很大的不确定性。而如何能够根据搜索引擎的需求开发更适合、精确度更高的实体标注和实体搜索技术,同时也设计出能够更健壮、更不受噪声干扰的基于知识图谱的搜索算法,是在搜索引擎中利用知识图谱的一个很重要的亟待解决的问题。

关系信息的使用

目前搜索排序中对知识图谱的使用大都侧重在知识图谱中的文本信息。而实际知识图谱中更丰富、更语义的是实体之间的关系信息。如何能够在搜索中更好利用实体之间的关系,提升搜索引擎对查询词和文档的理解,更好地对搜索相关性进行建模,是在搜索引擎中更进一步利用知识图谱的一个重要步骤。

展 望

总的来说,随着近年来知识图谱相关技术的发展,以及学术界、工业界对其在搜索引擎中应用的努力探索,目前已确信知识图谱在搜索引擎的可用性和潜力。随着人们对这个方向的持续投入,我们相信今后会出现更多基于知识图谱的搜索模型。最终帮助搜索引擎从更深层的语义上理解文本,更智能地给用户提供搜索结果,让人类的信息获取变得更加简单。

时间: 2024-10-09 00:44:49

《中国人工智能学会通讯》——7.24 现今知识图谱应用的挑战和展望的相关文章

《中国人工智能学会通讯》——7.22 知识图谱应用的基本技术

7.22 知识图谱应用的基本技术 要想在文本应用中使用知识图谱,必不可少的先决步骤是将知识图谱和文本对应起来.常用方法有实体标注(Entity Linking)和实体搜索(EntitySearch)两种. 实体标注 实体标注的任务是自动标识出文本里出现的实体.比如在"卡耐基梅隆大学是位于宾州匹兹堡的一所私立研究性大学"这句话里,实体标注系统会识别出它提到了"卡耐基梅隆"."宾夕法尼亚"."匹兹堡"和"研究性大学&qu

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

《中国人工智能学会通讯》——6.14 知识图谱中的推理技术

6.14 知识图谱中的推理技术 知识图谱的概念由谷歌 2012 年正式提出,旨在实现更智能的搜索引擎.知识图谱本质上是一种叫做语义网络(semantic network)的知识库,即具有有向图结构的一个知识库,其中图的结点代表实体(entity)或者概念(concept),而图的边代表实体 / 概念之间的各种语义关系,比如说两个实体之间的相似关系.谷歌知识图谱很重要的一部分是一个大规模的协同合作的知识库,叫 Freebase.Freebase 采用的数据结构是图模型,即可以把一个 Freebas

《中国人工智能学会通讯》——12.53 知识图谱构建技术

12.53 知识图谱构建技术 知识图谱中知识的来源有两类,一类是互联网上分布.异构海量资源:一类是已有的结构化的异构语义资源.从第一类资源中构建知识图谱的方法根据获取知识的类型分为概念层次学习.事实学习.事件学习等,而第二类资源进行的工作是异构资源的语义集成. 概念层次学习 概念是人们理解客观世界的线索,是人们对客观世界中的事物在不同层次上的概念化描述,概念层次是知识图谱的"骨骼".概念层次学习就是通过合理的技术,抽取知识表示中的概念,并确定其上下位关系.概念层次学习多采用基于启发式规

《中国人工智能学会通讯》——6.2 知识图谱的定义和发展

6.2 知识图谱的定义和发展 知识图谱由谷歌公司于 2012 年提出,用于下一代智能化搜索引擎的构建.在知识图谱出现之 前, 语 义 网(semantic Web) [1] . 数 据 连 接(linked data) [2] 等相关研究和大量的知识库系统(YAGO [3-4] .FreeBase [5] .DBpedia [6] )已经通过实体和实体之间的关系来表示现实世界的知识.知识图谱在提出之时,主要侧重指从网页信息中抽取实体和实体之间的关系信息.实体通常表示人名.地名.时间.地点.结构等

《中国人工智能学会通讯》——12.54 知识图谱应用

12.54 知识图谱应用 Google 最初提出知识图谱是为了增强搜索结果,改善用户搜索体验,知识图谱的应用远不止这些,基于知识图谱的服务和应用是当前的一大研究热点.按照应用方式可以分为语义搜索.知识问答,以及基于知识的大数据分析与决策等. 语义搜索:利用知识图谱所具有的良好定义的结构形式,以有向图的方式提供满足用户需求的结构化语义内容,主要包括 RDF 和 OWL 的语义搜索引擎和基于链接数据的搜索等[35] .语义搜索利用建立大规模知识库对用户搜索关键词和文档内容进行语义标注,改善搜索结果[

《中国人工智能学会通讯》——1.6 知识抽取

1.6 知识抽取 智能问答的实现需要强大的知识资源作为基础,这就需要通过对大规模数据资源进行理解和萃取,转换成计算机可以处理的形式来表示和存储.事实上,长期以来,科学家们一直致力于建构规模更大.更完备的知识资源库. 早期的知识资源大多是通过专家知识构建的,可以把智能问答系统中所用到的知识粗略地分为语言知识和世界知识.语言知识为对自然语言中词.短语等语义单元知识的组织,如词义信息.上下位关系等,该类资源最典型的代表包括英文词汇知识库 WordNet 7 .FrameNet 8 .中文词汇知识库 H

《中国人工智能学会通讯》——1.21 聊天机器人在研究上的展望

1.21 聊天机器人在研究上的展望 随着聊天机器人研究的广泛开展,未来的研究将着眼于以下三方面. 1) 端到端:得益于深度学习技术的发展,已有学者开始着手研究端对端的对话系统[14] .即利用统一的模型代替序列化地执行自然语言理解.对话管理和自然语言生成的步骤,从用户的原始输入直接生成系统回复. 2) 从特定域到开放域:随着大数据时代的到来,一方面,使得开放域的聊天机器人系统得以获取丰富的对话数据用于训练:另一方面,在大数据上可以自动聚类或抽取对话行为等信息,避免繁杂的人工定义. 3) 更加关注

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推