6.2 知识图谱的定义和发展
知识图谱由谷歌公司于 2012 年提出,用于下一代智能化搜索引擎的构建。在知识图谱出现之 前, 语 义 网(semantic Web) [1] 、 数 据 连 接(linked data) [2] 等相关研究和大量的知识库系统(YAGO [3-4] 、FreeBase [5] 、DBpedia [6] )已经通过实体和实体之间的关系来表示现实世界的知识。知识图谱在提出之时,主要侧重指从网页信息中抽取实体和实体之间的关系信息。实体通常表示人名、地名、时间、地点、结构等特定的内容,并带有相应的属性。实体之间的关系通常采用形如 < 实体 S,关系谓词 P,实体 O> 的三元组形式表示,代表一条事实信息。通过将实体看作网络的节点、将关系看作实体之间的(有向)边,我们可以得到一个知识的网络或知识图谱。可以看出,基于实体和关系的知识库系统,不仅聚合了大量的事实三元组条目,同时提供了实体之间的层次关系以及关系两端的实体属性的约束信息,从而为后续的知识融合和知识推理提供了较为灵活的支持。
基于实体和关系三元组的知识库的发展可以归纳为四个阶段,即领域专家的手工构建阶段、群体智慧的协同构建阶段、基于半结构化文本的自动化构建阶段和基于非结构化文本的自动化构建阶段[7] 。通过领域专家手工构建的知识库,其内容较为准确,而缺点是费时、费力且难以移植到其他领域。而后出现了基于群体智慧的协同方式所构建的Wikipedia 和 Freebase,它们具备结构化概念分类体系和非结构化的文本数据。这种方式相较于专家构建的方式,更加高效且能够处理更大规模的知识。但由于群体中参与者的知识背景参差不齐,这类数据也具有一定的噪音,而且参与者的活跃度也影响着知识构建的增长速度。基于 Wikipedia 的结构化概念分类和文本数据,研究者进一步尝试以自动化的方式来提取知识,构建了如 YAGO、DBpedia 一类的大规模结构化知识库,促进了相关知识服务的发展。随着互联网的发展,越来越多的非结构化数据涌现,只从 Wikipedia 等半结构化本文提取知识的方式已经不能满足人们的知识需求。因此,研究者开始结合自然语言处理技术,从非结构化文本中抽取实体和关系信息,用于构建和完善知识库,相关的研究问题包括命名实体识别、实体链接、实体消歧、关系抽取、关系分类、关系融合等。
目前,关于知识图谱自动创建的相关研究,主要聚焦于如何从大量的非结构化文本中抽取实体和关系等。结合机器学习和统计技术,研究者通过人工提取不同的特征或自动地学习特征的表示,用于知识抽取和知识服务。近年来,随着深度学习技术在自然语言处理领域的发展,研究者开始运用深度神经网络,从文本语料中为词、句、实体和关系等语义元素学习出低维稠密的实数值向量表示,从而有效地捕捉和刻画语义信息,并将其应用于各类自然语言处理任务中。在此,本文主要关注深度学习在知识图谱相关研究中的应用,包括命名实体识别、关系分类、关系补全等。