《大数据管理概论》一2.6 大数据融合的驱动枢纽

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.6节,作者 孟小峰,更多章节内容可以访问“华章计算机”公众号查看

2.6 大数据融合的驱动枢纽

数据融合与知识融合是一个相互启发、相互协调、逐步融合的过程,两者之间需要一个纽带进行衔接,我们把这个衔接纽带叫做智能晶格。此外,数据融合与知识融合还受一些共同因素的影响,如动态演化性、海量性和高速性,这些因素直接影响融合技术。

2.6.1 智能晶格

智能晶格的本质功能是用于桥接数据融合和知识融合,并对外提供使用接口,它应具备两个功能。首先,它用于优化知识的结构,方便获取知识库不同层次、不同粒度的关系数量和知识结构,可以完成高效的数据存储、更新和查询操作。其次,它属于对知识库的一种语义关系操作,需要具有自适应性、演化性和可溯源性,与知识库协调一致。因此,智能晶格可以认为是一种操作。从数据存储角度看,它是知识库的一种物理索引方法,用于实现数据的分层组织;从数据的呈现上看,它是知识库的不同层次、不同粒度的关系数量和知识结构的概要,为知识融合提供变粒度数据资源。
例如gStore索引[35]利用RDF图中挖掘出的若干存储模式和列存储技术将RDF数据中满足这些存储模式的结构保存在一起。但是,对于大数据的D&2V特性,还需要根据高阶多元关系中路径语义关系自动地找到关联数据中路径模式和自然语言中关系词汇之间的对应关系来发现存储模式,自适应学习动态索引的构建方法,优化知识的结构,进而动态建立不同粒度级别的概要图,并实现智能晶格“上钻”和“下钻”的交互式浏览方法,方便用户使用不同粒度的数据和理解复杂关联数据模式。

2.6.2 迁移学习

迁移学习是为解决跨媒体、跨领域、跨学科、跨行业体系的大数据融合问题而提出的,主要针对跨媒体、跨领域的知识学习和跨学科、跨行业体系的知识复用。
1)跨媒体、跨领域的知识学习:大数据融合的对象具有多样性,它既可以是结构化数据(如表格、列表等)、非结构化数据(如文本、图片、视频等)、半结构化的社会媒体数据(如微博、博客等复杂类型数据),也可以是知识,如规律、模型、机理等,它不仅以多种形式共存,还出现在不同领域,出现了多类型、跨领域融合的现象。针对这种跨领域的多形式数据进行知识融合不是简单的匹配融合,需要充分考虑各种数据形式的特点,同时需要研究它们的差异所在以及如何合理地处理这些差异,这是数据融合面临的一个挑战。在知识融合过程中上层机理是相通的,如金融市场呈现出的长期记忆性和社会网络中注意力流的长期记忆性,它们都呈现出了长期记忆现象。那么,它们在分析、处理方法上就可以相互借鉴。此外,系统科学从全局、整体出发研究数据的宏观现象、特征等,与数据库领域的局部、微观现象的发现形成互补,可以相互借鉴。这种在知识融合中适合处理多形式数据的跨领域寻找方法使得知识融合更高效。
2)跨学科、跨行业体系的知识复用:大数据融合是为了更好地提供知识服务,其中数据融合提供集成化知识,知识融合在此基础上进一步理解,以获得知识的隐性特征、规律,并对其进行验证、剖析,归纳出知识间呈现的普适性质、现象,甚至是内在机理。那么如何将一个行业体系中获取的深度知识、普适机理等,以低廉成本,直观、快速地应用到其他行业体系中就是一个焦点。一个普遍的想法是:如果出现了类似的情境,可以利用已有的结论提出假设,在相同的环境设置下调整一个或多个变化因素,观察事态变化以验证假设。这一过程的核心在于将可控模拟仿真的方法、大数据融合的理论与实际应用相结合,围绕现实中特定问题,依据大数据融合理论得到的相关历史知识、经验,包括规律、性质、机理、现象等,结合特定领域或情境下的知识,通过模拟、仿真的手段,生成相应的可执行方案。所以,可控模拟仿真的方法、大数据融合的理论与实际应用相结合的迁移学习方法将成为大数据时代的一种发展趋势。

2.6.3 数据溯源

大数据融合过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,传统融合方法没有考虑这一点。因此,必须建立大数据融合的可溯源机制。追溯融合结果的数据来源以及演化过程,以便及时发现和更正错误。这一步的关键是数据起源的表示以及数据演化中间过程的跟踪。其中,中间过程包括实体识别和冲突解决过程、知识库自适应发展过程以及知识推理和深度知识发现过程。
对于数据融合,首先需要建立知识获取的溯源机制,主要回答每条关联数据来源于哪个数据源,是经过了哪些操作(如实体、关系和属性抽取)得到的。这些数据的溯源对于判定数据的可信性非常重要。然后,需要建立实体识别溯源机制,用于跟踪融合结果由哪些待统一实体产生。最后,建立冲突解决溯源机制,用于处理融合结果元组中的每个值来自于哪些记录的哪个属性值以及通过何种冲突解决方法得来。
在知识推演和深度知识发现过程中,不仅需要向用户返回系统产生的答案,还需要向用户展示答案的来源和证据,即需要解决答案来源的“Why”“How”“Where”“Why Not”问题。与传统关系数据库中的溯源问题基于关系代数的执行路径分析不同的是,在知识推演和深度知识发现中,多了一个自然语言问题理解的过程。因此在回答这类溯源问题时,需要统一的推理和发现问题执行计划的表达模型,根据该模型给出溯源的答案。此外,维护溯源机制很花时间和空间,如何提高溯源的查询性能,同时降低溯源的时空代价也是亟待解决的问题。

2.6.4 D&2V处理

制约传统方法在大数据中使用的3个主要因素是大数据的动态演化性、高速性和海量性(简称D&2V)。知识的动态演化贯穿整个大数据融合过程,它影响着数据融合、知识融合的各种技术,所以还需要结合其他方法具体考虑。但是,其中最为重要的两项工作是:①对动态变化的跟踪和知识演化的建模,对于大数据的特殊性,需要考虑变化的复杂模式,如语义关系等,最好能从中挖掘概念模板以应对数据的高速性和海量性;②应对动态性给数据存储、索引带来的挑战,动态性是影响大数据融合的关键因素,亟待解决。
对于海量性和高速性,主要解决的是它们带来的负面影响,对这两个因素的处理直接关系到大数据融合的性能和效率。海量性和高速性迫使传统的多项式时间算法不再适用,需要权衡精度与速度(效率),大致有4种解决思路:①近似计算,采用近似算法代替原来的精确计算方法;②简约计算(N->K),通过核数据、采样等手段实现模型的精简和算法的快速收敛,达到简约计算,例如发现全量全模态(N)数据中的核数据(K)进行近似,或者通过采样实现多重小样本(K)对全量数据(N)的有效近似;③分治计算(N/K),即通过数据化整为零的手段实现计算的约简,达到算法层面的横向扩展(Scale Out),如网格计算、MapReduce和参数化服务;④增量计算(N->N),即针对数据相对于增量远小于绝对基数的现象,采用增量计算理论,需要支持流式数据的实时OLAP分析。除此之外,也可以借助优化硬件技术来支持大数据的处理。

时间: 2024-08-01 05:46:28

《大数据管理概论》一2.6 大数据融合的驱动枢纽的相关文章

《大数据管理概论》一导读

|前 言 陈寅恪先生说:"一时代之学术,必有其新材料与新问题.取用此材料,以研求问题,则为此时代学术之新潮流.治学之士,得预于此潮流者,谓之预流(借用佛教初果之名).其未得预者,谓之未入流."对今天的信息技术而言,"新材料"即为大数据,而"新问题"则是产生于"新材料"之上的新的应用需求. 对数据库领域而言,真正的"预流"是Jim Gray和Michael Stone-braker等大师们.十三年前面对&qu

《大数据管理概论》一1.3 大数据应用

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.3 大数据应用 人类历史上从未有哪个时代同今天一样产生如此海量的数据.数据的产生已经完全不受时间.地点的限制.从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生. 1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为

《大数据管理概论》一2.3 大数据融合的方法论

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.3节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.3 大数据融合的方法论 由2.2节的分析可知,大数据融合是一个多学科跨领域的研究问题,它的任务是将碎片化的数据相联系,将分散的数据集中,形成表层知识,即知识资源:进而使隐性知识显性化,使表层知识上升为普适机理.从而在数据资源.知识资源与用户之间建立有效的联系,缓解数据的无限性.知识的零散性与用户需求无法满足之间的矛盾,最大限度地提升大数据的价值

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

《大数据管理概论》一2.4 数据融合技术

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.4 数据融合技术 数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源.另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求.面对新的融合需求,反馈迭代机制显得极为重要.为此,我们给出数据融合的新的实现步骤:①对齐本体.模式,加速融合效率:②识别相同实体.链接关联实体:③甄别真伪.合并冲突数

《大数据管理概论》一2.2 大数据融合的概念

本节书摘来自华章出版社<大数据管理概论>一书中的第2章,第2.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 2.2 大数据融合的概念 众所周知,大数据价值链是一个阶梯式循环过程:"离散数据→集成化数据→知识理解→普适机理凝练→解释客观现象.回归自然",每一个链条是对大数据的一次价值提升.为了实现这一价值,我们提出了大数据融合的概念,它是获取高品质知识.最大程度发挥大数据价值的一种手段,它的重要性毋庸置疑.但是,大数据的特征已经发生变化

《大数据管理概论》一第3章‖大数据存储3.1 引言

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 第3章| 大数据存储 3.1 引言 大数据存储与管理研究首先面临的是存储技术上的挑战.虽然目前有许多存储技术有望用于大数据存储,但它们都存在局限性[36].例如:目前以NoSQL数据库为代表的大规模分布式数据库系统设计了基于磁盘存储的读写方式.索引结构.查询执行.查询优化和恢复策略,但是磁盘固有的读写性能差等弊端限制了大数据存取尤其是大数据分析性能

《大数据管理概论》一1.2 大数据的演变过程

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 1.2 大数据的演变过程 从数据库(Database,DB)到大数据(Big Data,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别.大数据的出现必将颠覆传统的数据管理方式,在数据来源.数据处理方式和数据思维等方面都会带来革命性变化.如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为"池塘捕鱼&

《大数据管理概论》一第1章概  述1.1 大数据的基本概念

本节书摘来自华章出版社<大数据管理概论>一书中的第1章,第1.1节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 |第1章 概 述 1.1 大数据的基本概念 已故的图灵奖得主Jim Gray在其<事务处理>一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收.土地.谷物.牲畜.奴隶和黄金等情况.随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文.