大数据时代的到来,为人工智能的飞速 发展带来前所未有的数据红利。在大数据的 “喂养”下,人工智能技术获得了前所未有 的长足进步。其进展突出体现在以知识图谱 为代表的知识工程以及深度学习为代表的机 器学习等相关领域。随着深度学习对于大数 据的红利消耗殆尽,深度学习模型效果的天 花板日益迫近。另一方面大量知识图谱不断 涌现,这些蕴含人类大量先验知识的宝库却 尚未被深度学习有效利用。融合知识图谱与 深度学习,已然成为进一步提升深度学习模 型效果的重要思路之一。以知识图谱为代表 的符号主义,以深度学习为代表的联结主义, 日益脱离原先各自独立发展的轨道,走上协 同并进的新道路。
1.1 知识图谱与深度学习融合的历史背景
大数据为机器学习,特别是深度学习带 来前所未有的数据红利。得益于大规模标 注数据,深度神经网络能够习得有效的层 次化特征表示,从而在图像识别等领域取 得优异效果。但是随着数据红利消失殆尽, 深度学习也日益体现出其局限性,尤其体 现在依赖大规模标注数据和难以有效利用 先验知识等方面。这些局限性阻碍了深度 学习的进一步发展。另一方面在深度学习 的大量实践中,人们越来越多地发现深度 学习模型的结果往往与人的先验知识或者 专家知识相冲突。如何让深度学习摆脱对 于大规模样本的依赖?如何让深度学习模 型有效利用大量存在的先验知识?如何让 深度学习模型的结果与先验知识一致已成 为了当前深度学习领域的重要问题。
当前,人类社会业已积累大量知识。 特别是,近几年在知识图谱技术的推动下, 对于机器友好的各类在线知识图谱大量涌现。知识图谱本质上是一种语义网络,表达 了各类实体、概念及其之间的语义关系。相 对于传统知识表示形式(诸如本体、传统语 义网络),知识图谱具有实体/概念覆盖率高、 语义关系多样、结构友好 ( 通常表示为 RDF 格式 ) 以及质量较高等优势,从而使得知识 图谱日益成为大数据时代和人工智能时代最 为主要的知识表示方式。能否利用蕴含于知 识图谱中的知识指导深度神经网络模型的学 习从而提升模型的性能,成为了深度学习模 型研究的重要问题之一。
现阶段将深度学习技术应用于知识图 谱的方法较为直接。大量的深度学习模型 可以有效完成端到端的实体识别、关系抽 取和关系补全等任务,进而可以用来构建 或丰富知识图谱。本文主要探讨知识图谱 在深度学习模型中的应用,从当前的文献 来看,主要有两种方式。一是将知识图谱 中的语义信息输入到深度学习模型中;将 离散化知识图谱表达为连续化的向量,从 而使得知识图谱的先验知识能够成为深度 学习的输入。二是利用知识作为优化目标 的约束,指导深度学习模型的学习;通常 是将知识图谱中知识表达为优化目标的后 验正则项。前者的研究工作已有不少文献, 并成为当前研究热点。知识图谱向量表示 作为重要的特征在问答以及推荐等实际任 务中得到有效应用。后者的研究才刚刚起 步,本文将重点介绍以一阶谓词逻辑作为 约束的深度学习模型。