12.52 知识表示
知识表示技术可以分成符号主义和联结主义。符号主义的知识表示的基础是纽威尔和西蒙提出的物理符号系统假设[14] ,认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的运算。联结主义认为,人的认知就是相互联系的具有一定活性值的神经单元所形成网络的整体活动,知识信息不存在于特定的地点,而是在神经网络的联结或者权重中。具体的表示方法可以分为三类。
基于符号逻辑的知识表示
此类方法基于符号逻辑进行知识表示和推理,主要包括逻辑表示法(如一阶逻辑、描述逻辑)、产生式表示法和框架表示等。逻辑表示与人类的自然语言比较接近,因此它也是最早使用的一种知识表示方法。基于符号逻辑的知识表示技术虽然可以很好地描述逻辑推理,然而,在推理中,机器生成规则的能力很弱,推理规则需要大量的人力,而且传统方法对数据的质量要求较高。因此,在目前大规模数据时代,传统的知识表示已经不能很好地解决知识表示的问题。
万维网内容的知识表示
Tim Berners-Lee 在其著作《Waving the Web》 [15]中提出了语义网 (Semantic Web) 的概念。在语义网中,网络内容都应该有确定的含义,而且可以很容易地被计算机理解、获取和集成。互联网信息的描述主要包括基于标签的半结构置标语言 XML 1 、基于 RDF 2 万维网资源语义元数据描述框架和基于描述逻辑的 OWL 3 本体描述语言等。当前在工业界得到大规模应用的是基于 RDF 三元组的知识表示方法。XML 通过为内容置标,便于数据交换;RDF通过三元组(主体,谓词,客体)描述互联网资源之间的语义关系;OWL 构建在 RDF 之上,是具有更强表达及其解释能力的语言。这些技术使我们可以将机器理解和处理的语义信息表示在万维网上。
表示学习
表示学习的目标是通过机器学习或深度学习,将研究对象的语义信息表示为稠密低维的向量。对不同粒度知识单元进行隐式的向量化表示,以支持大数据环境下知识的快速计算,主要包括张量重构[16-19]和势能函数的方法。张量重构综合整个知识库的信息,但在大数据环境下张量维度很高,重构的计算量较大。势能函数方法[20-23]认为,关系是头实体向尾实体的一种翻译操作,Bordes 等人提出的 TransE 模型是翻译模型的代表。之后有大量的工作对 TransE 进行扩展和应用,如通过优化向量化表示模型[24] 、结合文本等外部信息 [25] 、应用逻辑推理规则[26]等方法,这些方法进一步提升了表示学习效果。相比传统的知识表示方法,知识表示学习方法可以显著提升计算效率,有效缓解数据稀疏性,更容易实现不同来源的异质信息融合。