《大数据管理概论》一2.5　知识融合技术

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.1节，作者孟小峰，更多章节内容可以访问“华章计算机”公众号查看

2.5　知识融合技术

知识融合是将数据融合阶段获得的笼统的知识转化为可领悟知识，面向需求提供知识服务。它需要挖掘隐含知识，寻找潜在知识关联，进而实现知识的深层次理解，以便更好地解释数据。为此，我们给出知识融合的实现步骤：①对知识进行抽象和建模，为后续知识融合提供方便；②通过对表层知识的推理、理解，得出显式深度知识，如通过多路径关系推理得到间接知识；③通过推理、归纳等方法发现隐式深度知识，如类比关系等；④对知识资源、深度知识等剖析、解释、归纳出普适机理。

2.5.1　知识抽象与建模

知识抽象与建模是指根据数据的分布规律归纳出数据的结构规则进而抽象出数据之间的关联模式来表示知识的过程。知识可以以非结构化的XML、JSON、CSV形式表示，也可以直接用关系数据库形式表示。但是目前主流表示方式是RDF——<主语，谓语，宾语>——三元组，其中主语是实体，谓语是关系，宾语既可以是实体也可以是实体的属性值。知识图谱通常建模为RDF图或者嵌入表示为低维向量空间。它的难点在于数据关系多粒度并存、相互嵌套、复杂关联，面对大数据需要精简表达。
RDF图是指由RDF三元组按照关联关系链接成的图，在RDF知识图谱中，相似的实体很可能相关，相邻的节点或者有路径相连的节点很可能相似，一般采用局部相似、全局相似和准局部相似方法。局部相似性计算只依赖于直接链接的实体，不能模拟大范围的依赖关系。全局相似性考虑了所有路径上的实体，预测性能比局部性相似方法好，但计算更昂贵。准局部相似方法通过路径实体的相似度和有限长度的随机游走平衡了预测精度和计算复杂度。RDF图既不损失语义关联又能很好地表示知识，它的一个难点是需要对RDF图携带的三种信息——描述性属性、语义关系，以及两者兼顾的语义图结构进行概念描述，这一步对后续深度知识发现特别
重要。
嵌入表示将实体和关系都表示为低维向量，并且定义一个评分函数来确定元组的合理性，主要模型有双线性模型（复杂度较高，不适合Web规模的知识图谱）、多层感知模型和潜在距离模型。多层感知模型参数复杂，潜在距离模型将实体和关系表示为高斯分布或映射为超平面中的点。采用嵌入表示的目的主要是为了缓解数据稀疏，建立统一的语义表示空间，实现知识迁移，它的挑战性在于缺乏对各语言单位统一的语义表示与分析手段。嵌入表示和图特征模型互补，前者擅长通过引入新的潜在变量建模全局关系模式，并且当元组可以用少量的隐变量解释时计算效率很高；后者擅长建模局部和准局部图模式，并且当元组可以由邻居实体或与其有较短路径的实体解释时计算效率很高。

2.5.2　关系推演

关系推演可以看作显式深度知识发现，包括二元关系推理、多路径关系推理和演化关系推理。二元关系推理是指根据历史知识预测两个实体之间可能存在的关联关系，或者给定一个实体和一种关系，预测与之对应的实体。这种预测的关键在于实体和关系的表示。多路径关系推理的难点在于组合语义模型的设计和推理关系的可用性确定，与知识表示形式密切相关。关系演化建模中的关系可以是属性关系，也可以是语义关系，所以需要对关系变化进行细粒度的分析。此外，发现的深度知识对关系推演具有参考价值，所以还需要考虑深度知识发现反馈的结果。
关系推演方面目前关注的大多是直接关系和多路径关系的推理，缺乏对关系之间复杂模式的考虑，如自动通过元组<人，离不开，空气>推断出元组<鱼，离不开，水>这种类比关系。关系推演还借助于知识表示，目前有嵌入表示和RDF图两种表示。嵌入表示方法存在复杂关系表示与系统可扩展性不能兼顾的问题。采用RDF图表示时，传统的图相似性计算只是考虑到图结构的相似性，典型的如图结构的编辑距离和最小公共子图等，显然这种量度不能很好地反映语义上的相似性。有时实体间图结构的编辑距离比较大，但是它们的语义等价。所以采用RDF图表示时要重点考虑语义关系。无论采用哪种表示形式，都需要考虑推理关系的可信性，自动过滤无意义的推理关系。
此外，大数据融合是跨领域、跨语言、跨数据源的大融合，不同领域、语境和数据源之间的数据也可能是有关联的，所以，关系推理也不应该限定在单一知识库内，跨领域、跨语言、跨数据源的知识推理是大数据融合的一大趋势。并且关系推演的结果对数据融合、深度知识发现和普适机理形成至关重要，应该将推理结果扩充到知识库。这样做是具有挑战性的，首先推理结果准确性低、冗余度高，在将其加入知识库之前，通常需要进行可证明性检测和冲突检测来避免知识库中知识的矛盾和冗余。其次，这样做会导致融合的规模不断增加，所以需要合理控制融合规模，保证融合结果的可用性。

2.5.3　深度知识发现

深度知识包括高阶多元关系和隐含语义关系。深度知识发现对知识融合非常重要，尤其是隐式深度知识发现，它包含以下3种：①关系型深度知识，例如类比关系、上下位关系、因果关系、正/负相关关系、频繁/顺序共现关系和序列关系等，例如，人离不开空气与鱼离不开水这种类比关系；②数据分布型深度知识，即知识服从某些数据分布，如高斯分布、幂律分布和长尾分布等，例如，当关注数少于105时社交网络中节点的度分布服从指数为2.267的幂律分布；③性质型深度知识，即知识具有某种性质，如局部封闭世界、长城记忆和无标度等，常见的如知识图谱建模可假设满足局部封闭世界。
深度知识一般是通过领域理论，运用数学、物理等工具，进行理论建模、解析、逻辑演绎、公式推演和证明获得的，如采用统计分析和深度学习的方法。统计分析用于发现微观规律（待验证的深度知识）的推论，深度学习用于对推论建模和验证。深度学习根源于类神经网络（Artif?icial Neural Network）模型，一般步骤为设定好类神经网络架构（定义函数集），制定出学习目标（定义函数的拟合度），开始学习（选择最佳函数）。深度知识发现的难点在于有记忆力的深度学习模型的构建。此外，在实际应用中，知识库的构建者为保证知识库应用的时效性，通常仅保留部分与业务密切相关的知识，而放弃其发现的深度知识，但是发现的深度知识对关系推演具有参考价值，对数据融合具有启发作用，所以有必要将已经获得的深度知识融入知识库。

2.5.4　普适机理的剖析和归纳

目前知识融合依然缺乏对知识资源中存在关系的普适化。为此，我们首先要从理性或直觉中建立问题的模型，通过对数据呈现的现象进行概括性描述或者归纳学习得到普适模型，然后将模型与数据结合提供适当的泛化能力，如“Google大脑”可以通过深度学习无监督地辨别任何猫。另外，人的智力能透过现象看到本质，只有发现大数据所呈现出的普遍现象背后的普适原理才能对客观世界产生更大的影响。比如，网络在宏观上具有幂律分布现象，它们背后的普适原理是增长和择优机制在复杂网络中的自组织演化。所以可以将其作为知识建模、深度知识发现和关系推演的一个参考因素，从而提高融合效率。
普适机理往往是通过微观规律剖析宏观现象得到的，一般做法是首先采用统计、物理方法从大量个例中收集和组织经验事实、发现规律，剖析内在原理、归纳宏观现象，提出普适性假设；然后利用领域理论，如运用数学、物理等工具进行理论建模形成可测试推论；接着通过仿真模拟的方式验证推论、评估假设和模型，如果假设和机理不能够很好地解释实验中观测到的现象（实验中的现象也要能够与现实观测相吻合），则需要进一步修正假设和模型直到可以很好解释为止；最后提出规律并进一步接受实证数据的检验，直至得到公认为止。这样经过实证验证的普适机理就可以采用迁移学习（详见2.6.2节）的方法将普适机理用于实际中。