《大数据管理概论》一2.5 知识融合技术

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问“华章计算机”公众号查看

2.5 知识融合技术

知识融合是将数据融合阶段获得的笼统的知识转化为可领悟知识,面向需求提供知识服务。它需要挖掘隐含知识,寻找潜在知识关联,进而实现知识的深层次理解,以便更好地解释数据。为此,我们给出知识融合的实现步骤:①对知识进行抽象和建模,为后续知识融合提供方便;②通过对表层知识的推理、理解,得出显式深度知识,如通过多路径关系推理得到间接知识;③通过推理、归纳等方法发现隐式深度知识,如类比关系等;④对知识资源、深度知识等剖析、解释、归纳出普适机理。

2.5.1 知识抽象与建模

知识抽象与建模是指根据数据的分布规律归纳出数据的结构规则进而抽象出数据之间的关联模式来表示知识的过程。知识可以以非结构化的XML、JSON、CSV形式表示,也可以直接用关系数据库形式表示。但是目前主流表示方式是RDF——<主语,谓语,宾语>——三元组,其中主语是实体,谓语是关系,宾语既可以是实体也可以是实体的属性值。知识图谱通常建模为RDF图或者嵌入表示为低维向量空间。它的难点在于数据关系多粒度并存、相互嵌套、复杂关联,面对大数据需要精简表达。
RDF图是指由RDF三元组按照关联关系链接成的图,在RDF知识图谱中,相似的实体很可能相关,相邻的节点或者有路径相连的节点很可能相似,一般采用局部相似、全局相似和准局部相似方法。局部相似性计算只依赖于直接链接的实体,不能模拟大范围的依赖关系。全局相似性考虑了所有路径上的实体,预测性能比局部性相似方法好,但计算更昂贵。准局部相似方法通过路径实体的相似度和有限长度的随机游走平衡了预测精度和计算复杂度。RDF图既不损失语义关联又能很好地表示知识,它的一个难点是需要对RDF图携带的三种信息——描述性属性、语义关系,以及两者兼顾的语义图结构进行概念描述,这一步对后续深度知识发现特别
重要。
嵌入表示将实体和关系都表示为低维向量,并且定义一个评分函数来确定元组的合理性,主要模型有双线性模型(复杂度较高,不适合Web规模的知识图谱)、多层感知模型和潜在距离模型。多层感知模型参数复杂,潜在距离模型将实体和关系表示为高斯分布或映射为超平面中的点。采用嵌入表示的目的主要是为了缓解数据稀疏,建立统一的语义表示空间,实现知识迁移,它的挑战性在于缺乏对各语言单位统一的语义表示与分析手段。嵌入表示和图特征模型互补,前者擅长通过引入新的潜在变量建模全局关系模式,并且当元组可以用少量的隐变量解释时计算效率很高;后者擅长建模局部和准局部图模式,并且当元组可以由邻居实体或与其有较短路径的实体解释时计算效率很高。

2.5.2 关系推演

关系推演可以看作显式深度知识发现,包括二元关系推理、多路径关系推理和演化关系推理。二元关系推理是指根据历史知识预测两个实体之间可能存在的关联关系,或者给定一个实体和一种关系,预测与之对应的实体。这种预测的关键在于实体和关系的表示。多路径关系推理的难点在于组合语义模型的设计和推理关系的可用性确定,与知识表示形式密切相关。关系演化建模中的关系可以是属性关系,也可以是语义关系,所以需要对关系变化进行细粒度的分析。此外,发现的深度知识对关系推演具有参考价值,所以还需要考虑深度知识发现反馈的结果。
关系推演方面目前关注的大多是直接关系和多路径关系的推理,缺乏对关系之间复杂模式的考虑,如自动通过元组<人,离不开,空气>推断出元组<鱼,离不开,水>这种类比关系。关系推演还借助于知识表示,目前有嵌入表示和RDF图两种表示。嵌入表示方法存在复杂关系表示与系统可扩展性不能兼顾的问题。采用RDF图表示时,传统的图相似性计算只是考虑到图结构的相似性,典型的如图结构的编辑距离和最小公共子图等,显然这种量度不能很好地反映语义上的相似性。有时实体间图结构的编辑距离比较大,但是它们的语义等价。所以采用RDF图表示时要重点考虑语义关系。无论采用哪种表示形式,都需要考虑推理关系的可信性,自动过滤无意义的推理关系。
此外,大数据融合是跨领域、跨语言、跨数据源的大融合,不同领域、语境和数据源之间的数据也可能是有关联的,所以,关系推理也不应该限定在单一知识库内,跨领域、跨语言、跨数据源的知识推理是大数据融合的一大趋势。并且关系推演的结果对数据融合、深度知识发现和普适机理形成至关重要,应该将推理结果扩充到知识库。这样做是具有挑战性的,首先推理结果准确性低、冗余度高,在将其加入知识库之前,通常需要进行可证明性检测和冲突检测来避免知识库中知识的矛盾和冗余。其次,这样做会导致融合的规模不断增加,所以需要合理控制融合规模,保证融合结果的可用性。

2.5.3 深度知识发现

深度知识包括高阶多元关系和隐含语义关系。深度知识发现对知识融合非常重要,尤其是隐式深度知识发现,它包含以下3种:①关系型深度知识,例如类比关系、上下位关系、因果关系、正/负相关关系、频繁/顺序共现关系和序列关系等,例如,人离不开空气与鱼离不开水这种类比关系;②数据分布型深度知识,即知识服从某些数据分布,如高斯分布、幂律分布和长尾分布等,例如,当关注数少于105时社交网络中节点的度分布服从指数为2.267的幂律分布;③性质型深度知识,即知识具有某种性质,如局部封闭世界、长城记忆和无标度等,常见的如知识图谱建模可假设满足局部封闭世界。
深度知识一般是通过领域理论,运用数学、物理等工具,进行理论建模、解析、逻辑演绎、公式推演和证明获得的,如采用统计分析和深度学习的方法。统计分析用于发现微观规律(待验证的深度知识)的推论,深度学习用于对推论建模和验证。深度学习根源于类神经网络(Artif?icial Neural Network)模型,一般步骤为设定好类神经网络架构(定义函数集),制定出学习目标(定义函数的拟合度),开始学习(选择最佳函数)。深度知识发现的难点在于有记忆力的深度学习模型的构建。此外,在实际应用中,知识库的构建者为保证知识库应用的时效性,通常仅保留部分与业务密切相关的知识,而放弃其发现的深度知识,但是发现的深度知识对关系推演具有参考价值,对数据融合具有启发作用,所以有必要将已经获得的深度知识融入知识库。

2.5.4 普适机理的剖析和归纳

目前知识融合依然缺乏对知识资源中存在关系的普适化。为此,我们首先要从理性或直觉中建立问题的模型,通过对数据呈现的现象进行概括性描述或者归纳学习得到普适模型,然后将模型与数据结合提供适当的泛化能力,如“Google大脑”可以通过深度学习无监督地辨别任何猫。另外,人的智力能透过现象看到本质,只有发现大数据所呈现出的普遍现象背后的普适原理才能对客观世界产生更大的影响。比如,网络在宏观上具有幂律分布现象,它们背后的普适原理是增长和择优机制在复杂网络中的自组织演化。所以可以将其作为知识建模、深度知识发现和关系推演的一个参考因素,从而提高融合效率。
普适机理往往是通过微观规律剖析宏观现象得到的,一般做法是首先采用统计、物理方法从大量个例中收集和组织经验事实、发现规律,剖析内在原理、归纳宏观现象,提出普适性假设;然后利用领域理论,如运用数学、物理等工具进行理论建模形成可测试推论;接着通过仿真模拟的方式验证推论、评估假设和模型,如果假设和机理不能够很好地解释实验中观测到的现象(实验中的现象也要能够与现实观测相吻合),则需要进一步修正假设和模型直到可以很好解释为止;最后提出规律并进一步接受实证数据的检验,直至得到公认为止。这样经过实证验证的普适机理就可以采用迁移学习(详见2.6.2节)的方法将普适机理用于实际中。

时间: 2024-12-05 09:47:47

《大数据管理概论》一2.5 知识融合技术的相关文章

《大数据管理概论》一2.3 大数据融合的方法论

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.3 大数据融合的方法论 由2.2节的分析可知,大数据融合是一个多学科跨领域的研究问题,它的任务是将碎片化的数据相联系,将分散的数据集中,形成表层知识,即知识资源:进而使隐性知识显性化,使表层知识上升为普适机理.从而在数据资源.知识资源与用户之间建立有效的联系,缓解数据的无限性.知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值

《大数据管理概论》一2.4 数据融合技术

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.4 数据融合技术 数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源.另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求.面对新的融合需求,反馈迭代机制显得极为重要.为此,我们给出数据融合的新的实现步骤:①对齐本体.模式,加速融合效率:②识别相同实体.链接关联实体:③甄别真伪.合并冲突数

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一2.6 大数据融合的驱动枢纽

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.6 大数据融合的驱动枢纽 数据融合与知识融合是一个相互启发.相互协调.逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格.此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性.海量性和高速性,这些因素直接影响融合技术. 2.6.1 智能晶格 智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它

《大数据管理概论》一2.7 小结

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.7节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.7 小结 本章围绕如何获取高品质知识.最大程度地发挥大数据价值这一问题,首先提出了大数据融合的概念并分析了大数据融合的独特性和任务.其次面对大数据融合这一类新颖任务,对比.分析了各领域目前的融合范式,归纳了现有融合范式的缺陷.最后提出了动态演化的数据融合与多维度多粒度的知识融合双环驱动的大数据融合范式.与传统融合范式相比,大数据融合范式具有显著

《大数据管理概论》一1.3 大数据应用

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.3 大数据应用 人类历史上从未有哪个时代同今天一样产生如此海量的数据.数据的产生已经完全不受时间.地点的限制.从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生. 1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为

《大数据管理概论》一1.5 大数据管理的关键技术

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.5节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.5 大数据管理的关键技术 综上所述,大数据时代的数据存在如下几个特点:多源异构.分布广泛.动态增长.先有数据后有模式.正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的挑战,下面会对其中的主要挑战进行详细分析. 1.5.1 大数据融合 数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析,需要

《大数据管理概论》一3.3 基于新型存储的大数据管理

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.3 基于新型存储的大数据管理 闪存.PCM等新型存储的物理特性.读写特性等均与磁盘有着显著的不同,而目前已有的大数据数据库,其设计理念均是基于磁盘存储,在面对闪存.PCM等新型存储时并不能最大限度发挥新型存储的性能.目前,在基于新型存储的大数据管理方面也有一些研究工作,包括大数据存储.大数据索引.大数据查询和大数据分析等. 3.3.1 存储管理

《大数据管理概论》一导读

|前 言 陈寅恪先生说:"一时代之学术,必有其新材料与新问题.取用此材料,以研求问题,则为此时代学术之新潮流.治学之士,得预于此潮流者,谓之预流(借用佛教初果之名).其未得预者,谓之未入流."对今天的信息技术而言,"新材料"即为大数据,而"新问题"则是产生于"新材料"之上的新的应用需求. 对数据库领域而言,真正的"预流"是Jim Gray和Michael Stone-braker等大师们.十三年前面对&qu