《中国人工智能学会通讯》——6.2 知识图谱的定义和发展

6.2 知识图谱的定义和发展

知识图谱由谷歌公司于 2012 年提出,用于下一代智能化搜索引擎的构建。在知识图谱出现之 前, 语 义 网(semantic Web) [1] 、 数 据 连 接(linked data) [2] 等相关研究和大量的知识库系统(YAGO [3-4] 、FreeBase [5] 、DBpedia [6] )已经通过实体和实体之间的关系来表示现实世界的知识。知识图谱在提出之时,主要侧重指从网页信息中抽取实体和实体之间的关系信息。实体通常表示人名、地名、时间、地点、结构等特定的内容,并带有相应的属性。实体之间的关系通常采用形如 < 实体 S,关系谓词 P,实体 O> 的三元组形式表示,代表一条事实信息。通过将实体看作网络的节点、将关系看作实体之间的(有向)边,我们可以得到一个知识的网络或知识图谱。可以看出,基于实体和关系的知识库系统,不仅聚合了大量的事实三元组条目,同时提供了实体之间的层次关系以及关系两端的实体属性的约束信息,从而为后续的知识融合和知识推理提供了较为灵活的支持。

基于实体和关系三元组的知识库的发展可以归纳为四个阶段,即领域专家的手工构建阶段、群体智慧的协同构建阶段、基于半结构化文本的自动化构建阶段和基于非结构化文本的自动化构建阶段[7] 。通过领域专家手工构建的知识库,其内容较为准确,而缺点是费时、费力且难以移植到其他领域。而后出现了基于群体智慧的协同方式所构建的Wikipedia 和 Freebase,它们具备结构化概念分类体系和非结构化的文本数据。这种方式相较于专家构建的方式,更加高效且能够处理更大规模的知识。但由于群体中参与者的知识背景参差不齐,这类数据也具有一定的噪音,而且参与者的活跃度也影响着知识构建的增长速度。基于 Wikipedia 的结构化概念分类和文本数据,研究者进一步尝试以自动化的方式来提取知识,构建了如 YAGO、DBpedia 一类的大规模结构化知识库,促进了相关知识服务的发展。随着互联网的发展,越来越多的非结构化数据涌现,只从 Wikipedia 等半结构化本文提取知识的方式已经不能满足人们的知识需求。因此,研究者开始结合自然语言处理技术,从非结构化文本中抽取实体和关系信息,用于构建和完善知识库,相关的研究问题包括命名实体识别、实体链接、实体消歧、关系抽取、关系分类、关系融合等。

目前,关于知识图谱自动创建的相关研究,主要聚焦于如何从大量的非结构化文本中抽取实体和关系等。结合机器学习和统计技术,研究者通过人工提取不同的特征或自动地学习特征的表示,用于知识抽取和知识服务。近年来,随着深度学习技术在自然语言处理领域的发展,研究者开始运用深度神经网络,从文本语料中为词、句、实体和关系等语义元素学习出低维稠密的实数值向量表示,从而有效地捕捉和刻画语义信息,并将其应用于各类自然语言处理任务中。在此,本文主要关注深度学习在知识图谱相关研究中的应用,包括命名实体识别、关系分类、关系补全等。

时间: 2024-11-08 22:13:34

《中国人工智能学会通讯》——6.2 知识图谱的定义和发展的相关文章

中国人工智能学会通讯——NLP与知识图谱的对接

两个问题 第一个问题是,为什么有人说"中文知 识图谱"?难道知识图谱是有国籍的吗?知 识是无国界的,这个当然是理论上的说法. 具体到一个国度,一个语言文化的大环境, 我们就会发现,事实上知识是有母语的. 理论依据就是所谓的语言相对论.可能大 家最近都看了<降临>,<降临>讲的就 是语言相对论.其要点为:一种思维方式. 一种文化是被它的语言.它所操的母语所 塑造.这是一个很重要的论断,也正因为它, 在英语世界里搞得非常好的一些技术,到 汉语的世界来,就有可能水土不

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.2 知识图谱构建

1.2 知识图谱构建 知识图谱由实体.实体的属性描述以及实体和实体之间的关联构成.尽管其对于大数据人工智能的实现意义非凡,但其构造过程却极为困难.在早期,知识图谱构建单纯依赖于人类专家.在这一方法中,知识图谱中的实体.实体属性与实体关联关系完全由专家人工构造,此类知识图谱包括WordNet[2].CyC[3]等.WordNet定义了词汇之间的特定语义关系,包含约15万个词汇.20万个词汇语义对:CyC 包含了320万条人工定义的断言,涉及30万个概念.1.5万个谓词.随着互联网兴起,虽然依靠专家

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.3 KS-Studio 知识计算引擎

1.3 KS-Studio 知识计算引擎 2012年,中国工程院启动建设"中国工程科技知识中心(CKCEST)"项目1.该项目是我国工程科技领域重要的大数据项目,旨在打通和汇聚各类工程科技数据资源,通过技术分析处理形成知识库,并开发各种应用提供知识服务,推动国家工程科技战略思想库的建设,服务于国家的战略决策. 从数据的性质看,建设知识中心所需的知识是高度结构化的,而分散在各工程科技领域的数据资源绝大部分属于非结构化数据.如何将无序繁杂的文本.图像.视频等原始的非结构化数据加工转化为有序

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.4 结束语

1.4 结束语 下一代人工智能(AI 2.0)将改变计算本身,将大数据转变为知识以支持人类社会作出更好决策[19].目前KS-Studio正在以知识图谱的自动构建为基础,不断丰富对于非结构化数据的知识加工处理的能力,并在不断探索将数据驱动方法与人类常识先验与隐式直觉有效结合起来的可能,我们认为只有如此才能实现可解释.更鲁棒和更通用的人工智能.

中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.1 背景

1.1 背景 人工智能正再次成为国际国内学术界和产业界关注的热点,深度学习.迁移学习和增强学习等方法在诸多领域得到了成功应用.图灵早期对获得机器智能进行了一些设想[1],即通过添加遗传物质,辅以变异.进化.教育与自然选择等手段来使得"the child machine"成熟,并进一步去模仿成人的思维,这一设想至今仍具借鉴意义.与孩童成长类似,这个"child machine"首先需要对语言.文字.图像等非结构化数据所蕴含的(常识性)概念进行理解,来感知外界环境,这是

《中国人工智能学会通讯》——2.3 智能驾驶汽车的发展概况

2.3 智能驾驶汽车的发展概况 当前世界各国都非常重视对自主驾驶汽车的研究,发展了许多实验性的自主驾驶系统[1] ,美国国防部高级研究计划局 (DARPA) 先后举办了三次无人驾驶车辆的"大挑战"(Grand Challenge)比赛[2] .其中 2004 年和 2005 年举办的两次越野环境挑战赛,重点测试了自主驾驶汽车在越野环境的感知与规划控制能力:2007 年的城市挑战赛(UrbanChallenge),强调自主驾驶汽车在复杂城市环境中的适应能力.作为长距离自主驾驶实验的代表,

《中国人工智能学会通讯》——12.57 不确定性的定义

12.57 不确定性的定义 表 1 是对于几种从数学角度进行阐释的不确定性的简介. 下面讨论一种典型的不确定性--模糊集的模糊性.模糊性被用来描述两个语义之间的不明确性程度,比如热和冷.模糊性最早是由 Zadeh 在1968 年提出的,他也是模糊集理论[8]的提出者.Zadeh 模糊集理论的基本思想是,隶属度的函数值从原来的只为 0 或 1 扩展到了区间 [0,1].由于主观上有对于语义理解的不确定性,所以隶属度的函数值范围被扩展了.在模糊集理论的基础上,Luca 和Termini 在 1972

《中国人工智能学会通讯》——7.24 现今知识图谱应用的挑战和展望

7.24 现今知识图谱应用的挑战和展望 知识图谱本身仍是一个快速发展的领域.它在搜索引擎中的应用更是刚刚起步.这里,笔者根据自身在这个方向研究过程中的经验和体会,总结出两个目前最直接对知识图谱在搜索引擎中使用的挑战,以及对这个方向将来发展的展望. 知识图谱和自然语言的对接 目前几乎所有相关工作都需要首先将知识图谱和文本数据对接起来.本文介绍了三种目前有效的主流方法,即查询词条实体标注.实体搜索和文档实体标注.但是这三种技术本身都是正在发展的技术,各自的精确度并非可以完全被依赖. 目前文档的实体标

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推