综述 | 知识图谱发展概述

“知识图谱(Knowledge Graph)”的概念由 Google 公司在 2012 年提出[1],是指其用于提升搜索引擎性能的知识库。与近年来其他学者相同,本文中的“知识图谱”泛指知识库项目,而非特指 Google 的知识图谱项目。

知识图谱的出现是人工智能对知识需求所导致的必然结果,但其发展又得益于很多其他的研究领域,涉及专家系统、语言学、语义网、数据库,以及信息抽取等众多领域,是交叉融合的产物而非一脉相承。

知识图谱的早期发展

早在上个世纪 70 年代,专家系统(Expert Systems)作为人工智能的重要分支,是指利用知识和推理过程来解决那些借助人类专家知识才能得已解决的问题的计算机程序[2]。八十年代,专家系统的发展激增,日本的五代机项目就是在这期间开始的,专家系统是其核心部分。专家系统一般由两部分组成:知识库与推理引擎。人类专家提供知识,再将这种显式的知识映射并存储到知识库中用来推理。

Cyc 是这一期间较为出色的项目[3],由 Douglas Lenat 在 1984 年设立,旨在收集生活中常识知识并将其编码集成到一个全面的本体知识库。Cyc 知识库中的知识使用专门设计的 CycL 进行表示。同其他专家系统一样,Cyc 不仅包括知识,而且提供了非常多的推理引擎,支持演绎推理和归纳推理。目前 Cyc 知识库涉及 50 万条概念的 500 万条常识知识。OpenCyc 是其开放出来免费供大众使用的部分知识,包括 24 万条概念的约 240 万条常识知识。

对词汇的理解是解读自然语言的关键,语言学家所创造的词典为人类而非机器的阅读提供了便利,虽然有电子词典的存在,但机器仍无法很好的从中获取词汇含义。

1985 年,普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下开始建立和维护名为 WordNet 的英语字典[4],旨在为词典信息和现代计算提供更加有效的结合,为计算机程序提供可读性较强的在线词汇数据库。

WordNet 中,名词、动词、形容词以及副词被按照认知上的同义词分组,称为 synsets,每一个 synset 表征一个确定的概念。synset 之间通过概念语义以及词汇关系链接。在汉语中,类似的典型代表有《同义词词林》[15]及其扩展版[16]、知网(HowNet)[17]等,都是从语言学的角度,以概念为最基本的语义单元构建起来的可以被计算机处理的汉语词典。

这些早期的知识图谱都是利用相关领域专家进行人工构建,具有很高的准确率和利用价值,但是其构建过程耗时耗力而且存在覆盖性较低的问题。

链接数据与基于百科知识的知识图谱构建

1989 年万维网的出现,为知识的获取提供了极大的方便,1998 年,万维网之父蒂姆·伯纳斯·李再次提出语义网(Semantic Web),其初衷是让机器也同人类一样可以很好地获取并使用知识[5,6,7]。

不同于人工智能中训练机器使之拥有和人类一样的认知能力,语义网直接向机器提供可直接用于程序处理的知识表示[5]。但语义网是一个较为宏观的设想并且其设计模型是“自顶向下”的,导致其很难落地,学者们逐渐将焦点转向数据本身。

2006 年,伯纳斯·李提出链接数据(Linked Data)的概念,鼓励大家将数据公开并遵循一定的原则(2006 年提出 4 条原则,2009 年精简为 3 条原则)将其发布在互联网中[8,9],链接数据的宗旨是希望数据不仅仅发布于语义网中,而需要建立起数据之间的链接从而形成一张巨大的链接数据网。其中,最具代表性的当属 2007 年开始运行的 DBpedia 项目[10],是目前已知的第一个大规模开放域链接数据。

DBpdia 项目最初是由柏林自由大学和莱比锡大学的学者发起的,其初衷是缓解语义网当时面临的窘境,第一份公开数据集在 2007 年时发布,通过自由授权的方式允许他人使用。Leipzig 等学者[10]认为在大规模网络信息的环境下传统“自上而下”地在数据之前设计本体是不切实际的,数据及其元数据应当随着信息的增加而不断完善。

数据的增加和完善可以通过社区成员合作的方式进行,但这种方式涉及数据的一致性、不确定性,以及隐式知识的统一表示等诸多问题。Leipzig 等人[10]认为探寻这些问题最首要并高效的方式就是提供一个内容丰富的多元数据语料,有了这样的语料便可以极大推动诸如知识推理、数据的不确定管理技术,以及开发面向语义网的运营系统。

朝着链接数据的构想,DBpedia 知识库利用语义网技术,如资源描述框架(RDF)[18],与众多知识库(如 WordNet、Cyc 等)建立链接关系,构建了一个规模巨大的链接数据网络。

2001 年,一个名为维基百科(Wikipedia)的全球性多语言百科全书协作计划开启[11],其宗旨是为全人类提供自由的百科全书,在短短几年的时间里利用全球用户的协作完成数十万词条(至今拥有上百万词条)知识。维基百科的出现推动了很多基于维基百科的结构化知识的知识库的构建,DBpedia[10]、Yago[12]等都属于这一类知识库。

Yago 是由德国马普研究所于 2007 年开始的项目,针对当时的应用仅使用单一源背景知识的情况,建立了一个高质量、高覆盖的多源背景知识的知识库。前面介绍的专家构建的 WordNet 拥有极高的准确率的本体知识,但知识覆盖度仅限于一些常见的概念或实体;相比之下,维基百科蕴含丰富的实体知识,但维基百科多提供的概念的层次结构类似标签结构并不精确,直接用于本体构建并不适合。

Yago 的主要思路是将 WordNet 与维基百科二者的知识结合,即利用 WordNet 的本体知识补充维基百科中实体的上位词知识,从而获取大规模高质量、高覆盖的知识库。截至目前,Yago 拥有超过 1 千万实体的 1.2 亿条事实知识,同时近些年也构建起了与其他知识库的链接关系。

DBpedia 主要通过社区成员来定义和撰写准确的抽取模版,从维基百科中抽取结构化信息(如 infobox)构建大规模知识库,另外本体(即知识库的元数据、schema)的构建也是通过社区成员合作完成的。

由于维基百科是社区撰写,其知识表达难免有不一致的情况,DBpedia 利用 mapping 技术与抽取模版来实现知识描述的统一与一致性。另外,为了实现知识的更新与扩增,DBpedia 开发 DBpediaLive 来保持与维基百科的同步。在 2016 年发行的版本中,DBpedia 拥有超过 6 百万实体及其数十亿事实知识,其中人工构建的本体库包含 760 种类别信息。同时,DBpedia 拥有大量的跨语言知识,共拥有除英语外的 66 亿其他语言事实知识。

2007 年,Freebase[13]开始构建,类似维基百科,其内容主要来自其社区成员的贡献,但与维基百科最大的不同之处在于 Freebase 中都是结构化的知识,在维基百科中人们编辑的是文章,而在 Freebase 中编辑的是知识。

在 Freebase 中,用户是其主要核心,除了对实体的编辑,用户也参与本体库的构建、知识的校对,以及与其他知识库的链接工作。除人工输入知识,Freebase 也主动导入知识,如维基百科的结构化知识。Freebase 拥有大约 2 千万实体,目前被 Google 公司收购,Freebase 的 API 服务已经关闭但仍提供数据的下载。

2012 年,考虑到维基百科中大部分的知识都是非结构组织起来的,带来诸多问题(如:无法对知识进行有效的搜索与分析,进而知识无法得到很好的重用,甚至存在知识的不一致性的现象),维基媒体基金会推出 Wikidata 项目[14],一个类似于 Freebase 的大规模社区成员合作知识哭,旨在用一种全新的方式管理知识以克服以上的存在于维基百科中的问题。

以上所介绍的知识图谱都是基于英文语言的,即使是多语言知识图谱也是以英文为主语言,其他语言知识是用过跨语言知识(如:语言间链接(ILLs)、三元组对齐(TWA))链接得到。

近些年,国内推出了大量以中文为主语言的知识图谱,它们主要都是基于百度百科和维基百科的结构化信息构建起来的。如上海交通大学的zhishi.me[19]、清华大学的XLore[20]、复旦大学的CN-pedia[21]。2017 年,由国内多所高校发起 cnSchema.org 项目[23],旨在利用社区力量维护开放域知识图谱的 Schema 标准。

基于自由文本的开放域知识图谱构建


上述介绍的知识图谱的构建方式包括人工编辑和自动抽取,但自动抽取方法主要是基于在线百科中结构化信息而忽略了非结构化文本,而互联网中大部分的信息恰恰是以非结构化的自由文本形式呈现。与链接数据发展的同期,很多基于信息抽取技术的知识获取方法被提出,用以构建基于自由文本的开放域知识图谱。

2007 年,华盛顿大学 Banko 等人[24]率先提出开放域信息抽取(OIE),直接从大规模自由文本中直接抽取实体关系三元组,即头实体、关系指示词,以及尾实体三部分,类似于语义网中 RDF 规范的 SPO 结构。

在 OIE 提出之前,也有很多面向自由文本的信息抽取被提出,但这些方法主要的思路都是为每个目标关系训练相应的抽取器。这类传统的信息抽取方法在面对互联网文本中海量的关系类别时无法高效工作,即为每个目标关系训练抽取器时不现实的,更为严重的是很多情况下面对海量的网络文本我们无法事先明确关系的类型。

OIE 通过直接识别关系词组(relation phrases)也称关系指示词,即显式表证实体关系的词组,来抽取实体关系。基于 OIE 的指导思想,华盛顿大学陆续推出TextRunner[24]、Reverb[25]、OLLIE[26]等基于自由文本的开放域三元组抽取系统;以及卡耐基梅隆大学的 NELL 系统[27,29]、德国马普研究中心的 PATTY 等[28]。

这些系统有的需要自动构造标注的训练语料,进而从中提取关系模版或训练分类器;有的则依据语法或句法特征直接从分析结果中抽取关系三元组。接下来,本文将简要介绍下具有代表性的 Reverb 和 NELL 系统的实现思想。

Reverb 针对之前的 OIE 系统中存在的两个问题:不连贯抽取与信息缺失抽取,提出句法约束:对于多词语关系词组,必须以动词开头、以介词结束,并且是由句子中毗邻的单词组成。该约束可以有效缓解以上两个问题造成的抽取失败。进一步,为了避免由句法约束带来的冗长的并且过于明确的关系指示词,Reverb 引入了启发式的词法约束。

总的来说,Reverb 提出了两个简单却高效的约束,在面向英文自由文本的开放域知识抽取中取得了不错的效果,很具启发意义。

never-ending learning 被定义为是一种不同于传统的机器学习方式[29],通过不断地阅读获取知识,并不断提升学习知识的能力以及利用所学知识进行推理等逻辑思维。NELL 就是一种这样的智能体,其任务是学习如何阅读网页以获取知识。

NELL 的输入有:

  • 定义了类别和二元关系的初始本体库;
  • 对于每个类别和关系的训练种子数据;
  • 网页数据(从预先准备好的网页集合中获取、每天从 Google 搜索 API 获取);
  • 偶尔的人工干预。

NELL 每天 24 小时不停歇的进行如下操作:

  • 从网页中阅读(抽取)知识事实用以填充知识库,并移除之前存在于知识库中不正确知识事实,每个知识具有一定的置信度以及参考来源;
  • 学习如何比前一天更好地阅读(抽取)知识事实。

NELL 从 2010 年 1 月开始进行上述阅读过程,目前所产生的知识库已经拥有超过 8 千万的相互链接的事实,以及上百万学习到的短语。

自动构建的开放域中文实体知识图谱——《大词林》

上述所介绍的 OIE 系统大多专注于对开放域实体关系三元组的抽取,但忽略了对于知识图谱不可或缺的同时也是至关重要的本体库的构建,即知识图谱元数据或称为 Schema 的构建,是为三元组赋以语义的关键。

2014 年,由哈尔滨工业大学社会计算与信息检索研究中心发起的《大词林》项目,面向包括自由文本的多信息源对实体的类别信息进行自动抽取并层次化,进而实现对实体上下位关系体系的自动构建,而上下位关系体系正是本体库的核心组成之一。

《大词林》的构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。同时也正是由于《大词林》具有自动构建能力,其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。

另外,相比以往的类别体系知识库,《大词林》中类别体系的结构也更加灵活。如《同义词词林(扩展版)》中每个实体具有具备五层结构,其中第四层仅有代码表示,其余四层由代码和词语表示,而《大词林》中类别体系结构的层数不固定,依据实体词的不同而动态变化,如“哈工大”一词有 7 层之多,而“中国”一词有 4 层;另外,《大词林》中的每一层都是用类别词或实体词表示。

自 2014 年 11 月 27 日上线,《大词林》不断添加中文实体及其层次化类别信息,自动构建开放域实体知识库。目前,《大词林》中包括约 900 万实体、约 17 万类别;平均每个命名实体有 1.77 个不同粒度的优质类别;上下位关系超过 1 千万对,其中实体与上位词之间的上下位关系与上位词之间的上下位关系准确率均达到 90% 以上。

《大词林》(http://www.bigcilin.com/)系统网站支持用户查询任意实体,并以有向图的形式展现实体的层次化类别,同时支持以目录方式供用户浏览部分公开的知识库。

人工智能中关键的一步是知识的获取与构建,《大词林》作为基于上下位关系的中文知识库,随着互联网中实体词的增加不断扩充其数据规模,并即将加入实体间关系、实体属性等网状关系结构,这对于基于知识库的智能系统无疑是一笔巨大的宝藏。

原文发布时间为:2017-11-3

本文作者: 姜天文

时间: 2024-11-02 16:13:36

综述 | 知识图谱发展概述的相关文章

综述 | 知识图谱研究进展

1 知识图谱构建技术 本节首先给出知识图谱的技术地图,然后介绍知识图谱构建的关键技术,包括关系抽取技术.知识融合技术.实体链接技术和知识推理技术. 1.1 知识图谱技术地图 构建知识图谱的主要目的是获取大量的.让计算机可读的知识.在互联网飞速发展的今天,知识大量存在于非结构化的文本数据.大量半结构化的表格和网页以及生产系统的结构化数据中.为了阐述如何构建知识图谱,本文给出了构建知识图谱的技术地图,该技术地图如图1所示.整个技术图主要分为三个部分,第一个部分是知识获取,主要阐述如何从非结构化.半结

综述 | 知识图谱向量化表示

前言 知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系.知识图谱常被应用于以下几个方面:(1)搜索(2)聊天机器人和问答系统.近年来一部分学者尝试将知识图谱引入到推荐系统中,并且取得了不错的结果.本文选择了八篇知识图谱向量表示的论文进行介绍. Translating embeddings for modeling multi-relational data Bordes A, Usunier N, Weston J, et al. NIPS. 2013. 写作

《中国人工智能学会通讯》——12.50 知识图谱研究综述

12.50 知识图谱研究综述 知识图谱(Knowledge Graph, KG)旨在描述客观世界的概念.实体.事件及其之间的关系.其中,概念是指人们在认识世界过程中形成对客观事物的概念化表示,如人.动物.组织机构等:实体是客观世界中具体事物,如篮球运动员姚明.互联网公司腾讯等:事件是客观世界的活动,如地震.买卖行为等.关系描述概念.实体.事件之间客观存在的关联关系,如毕业院校描述了一个人与他学习所在学校之间的关系,运动员和篮球运动员之间的关系是概念和子概念之间的关系等.谷歌于 2012 年 5月

中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方

        知识图谱(Knowledge Graph)是当前学术界和企业界的研究热点.中文知识图谱的构建对中文信息处理和中文信息检索具有重要的价值.中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的著名高校.研究机构和企业的专家及学者有意参与并发表演讲,下面就是第一届全国中文知识图谱研讨会的学习笔记.         会议介绍地址和PPT下载链接:http://www.cipsc.org.cn/kg1/         第一篇以现有百度知心和搜狗知立方为主,其中文章目录如下

《中国人工智能学会通讯》——6.2 知识图谱的定义和发展

6.2 知识图谱的定义和发展 知识图谱由谷歌公司于 2012 年提出,用于下一代智能化搜索引擎的构建.在知识图谱出现之 前, 语 义 网(semantic Web) [1] . 数 据 连 接(linked data) [2] 等相关研究和大量的知识库系统(YAGO [3-4] .FreeBase [5] .DBpedia [6] )已经通过实体和实体之间的关系来表示现实世界的知识.知识图谱在提出之时,主要侧重指从网页信息中抽取实体和实体之间的关系信息.实体通常表示人名.地名.时间.地点.结构等

搜索引擎和知识图谱那些事 (上).基础篇

        这是一篇基础性文章,主要介绍搜索引擎和知识图谱的一些原理.发展经历和应用等知识.希望文章对你有所帮助~如果有错误或不足之处,还请海涵.(参考资料见后) 一. 搜索引擎 (一).搜索引擎的四个时代         根据张俊林大神的<这就是搜索引擎>这本书中描述(推荐大家阅读),搜索引擎从采取的技术划分为4个时代:         1.史前时代:分类目录的一代         这个时代成为"导航时代",Yahoo和国内hao123是这个时代的代表.通过人工搜集整

中国人工智能学会通讯——当知识图谱“遇见”深度学习 1.1 知识图谱与深度学习融合的历史背景

大数据时代的到来,为人工智能的飞速 发展带来前所未有的数据红利.在大数据的 "喂养"下,人工智能技术获得了前所未有 的长足进步.其进展突出体现在以知识图谱 为代表的知识工程以及深度学习为代表的机 器学习等相关领域.随着深度学习对于大数 据的红利消耗殆尽,深度学习模型效果的天 花板日益迫近.另一方面大量知识图谱不断 涌现,这些蕴含人类大量先验知识的宝库却 尚未被深度学习有效利用.融合知识图谱与 深度学习,已然成为进一步提升深度学习模 型效果的重要思路之一.以知识图谱为代表 的符号主义,以

知识图谱相关会议之观后感分享与学习总结

        2015年6月27日,清华大学FIT楼多功能报告厅,中国中文信息学会青年工委系列学术活动--知识图谱研究青年学者研讨会.        由于我毕设是与知识图谱.实体消歧.实体对齐.知识集成相关的,所以去听了这个报告:同时报告中采用手写笔记,所以没有相应的PPT和原图(遗憾),很多图是我自己画的找的,可能存在遗漏或表述不清的地方,请海涵~很多算法还在学习研究中,最后希望文章对大家有所帮助吧!感谢那些分享的牛人,知识版权归他们所有.         目录:         一.面向知

搜索创新乏力:知识图谱和打造海量数据库是关键

国外科技媒体Venturebeat撰文对搜索创新乏力的现状进行剖析,并指出未来的搜索技术将让内容更权威.精确,并具有更多样化的形态.知识图谱将为新型搜索提供举足轻重的驱动力.作为搜索界的主导公司,谷歌虽然拥有许多优势,也致力于开发知识图谱.会话应用等创新措施,但陷入了"创新者的困境"中,此外它还将面临苹果.Facebook和亚马逊等搜索领域的有力竞争者.文章表示,未来搜索市场的博弈中,无论哪方获胜,都将打造全球规模最大的数据库. 以下为全文内容: 过去二十年,科技经历着巨大创新(如,智