《大数据管理概论》一2.6　大数据融合的驱动枢纽

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.6节，作者孟小峰，更多章节内容可以访问“华章计算机”公众号查看

2.6　大数据融合的驱动枢纽

数据融合与知识融合是一个相互启发、相互协调、逐步融合的过程，两者之间需要一个纽带进行衔接，我们把这个衔接纽带叫做智能晶格。此外，数据融合与知识融合还受一些共同因素的影响，如动态演化性、海量性和高速性，这些因素直接影响融合技术。

2.6.1　智能晶格

智能晶格的本质功能是用于桥接数据融合和知识融合，并对外提供使用接口，它应具备两个功能。首先，它用于优化知识的结构，方便获取知识库不同层次、不同粒度的关系数量和知识结构，可以完成高效的数据存储、更新和查询操作。其次，它属于对知识库的一种语义关系操作，需要具有自适应性、演化性和可溯源性，与知识库协调一致。因此，智能晶格可以认为是一种操作。从数据存储角度看，它是知识库的一种物理索引方法，用于实现数据的分层组织；从数据的呈现上看，它是知识库的不同层次、不同粒度的关系数量和知识结构的概要，为知识融合提供变粒度数据资源。
例如gStore索引［35］利用RDF图中挖掘出的若干存储模式和列存储技术将RDF数据中满足这些存储模式的结构保存在一起。但是，对于大数据的D&2V特性，还需要根据高阶多元关系中路径语义关系自动地找到关联数据中路径模式和自然语言中关系词汇之间的对应关系来发现存储模式，自适应学习动态索引的构建方法，优化知识的结构，进而动态建立不同粒度级别的概要图，并实现智能晶格“上钻”和“下钻”的交互式浏览方法，方便用户使用不同粒度的数据和理解复杂关联数据模式。

2.6.2　迁移学习

迁移学习是为解决跨媒体、跨领域、跨学科、跨行业体系的大数据融合问题而提出的，主要针对跨媒体、跨领域的知识学习和跨学科、跨行业体系的知识复用。
1）跨媒体、跨领域的知识学习：大数据融合的对象具有多样性，它既可以是结构化数据（如表格、列表等）、非结构化数据（如文本、图片、视频等）、半结构化的社会媒体数据（如微博、博客等复杂类型数据），也可以是知识，如规律、模型、机理等，它不仅以多种形式共存，还出现在不同领域，出现了多类型、跨领域融合的现象。针对这种跨领域的多形式数据进行知识融合不是简单的匹配融合，需要充分考虑各种数据形式的特点，同时需要研究它们的差异所在以及如何合理地处理这些差异，这是数据融合面临的一个挑战。在知识融合过程中上层机理是相通的，如金融市场呈现出的长期记忆性和社会网络中注意力流的长期记忆性，它们都呈现出了长期记忆现象。那么，它们在分析、处理方法上就可以相互借鉴。此外，系统科学从全局、整体出发研究数据的宏观现象、特征等，与数据库领域的局部、微观现象的发现形成互补，可以相互借鉴。这种在知识融合中适合处理多形式数据的跨领域寻找方法使得知识融合更高效。
2）跨学科、跨行业体系的知识复用：大数据融合是为了更好地提供知识服务，其中数据融合提供集成化知识，知识融合在此基础上进一步理解，以获得知识的隐性特征、规律，并对其进行验证、剖析，归纳出知识间呈现的普适性质、现象，甚至是内在机理。那么如何将一个行业体系中获取的深度知识、普适机理等，以低廉成本，直观、快速地应用到其他行业体系中就是一个焦点。一个普遍的想法是：如果出现了类似的情境，可以利用已有的结论提出假设，在相同的环境设置下调整一个或多个变化因素，观察事态变化以验证假设。这一过程的核心在于将可控模拟仿真的方法、大数据融合的理论与实际应用相结合，围绕现实中特定问题，依据大数据融合理论得到的相关历史知识、经验，包括规律、性质、机理、现象等，结合特定领域或情境下的知识，通过模拟、仿真的手段，生成相应的可执行方案。所以，可控模拟仿真的方法、大数据融合的理论与实际应用相结合的迁移学习方法将成为大数据时代的一种发展趋势。

2.6.3　数据溯源

大数据融合过程对用户透明，缺乏可解释性和可操作性，并且大数据的海量性和动态演化加大了错误恢复的难度，传统融合方法没有考虑这一点。因此，必须建立大数据融合的可溯源机制。追溯融合结果的数据来源以及演化过程，以便及时发现和更正错误。这一步的关键是数据起源的表示以及数据演化中间过程的跟踪。其中，中间过程包括实体识别和冲突解决过程、知识库自适应发展过程以及知识推理和深度知识发现过程。
对于数据融合，首先需要建立知识获取的溯源机制，主要回答每条关联数据来源于哪个数据源，是经过了哪些操作（如实体、关系和属性抽取）得到的。这些数据的溯源对于判定数据的可信性非常重要。然后，需要建立实体识别溯源机制，用于跟踪融合结果由哪些待统一实体产生。最后，建立冲突解决溯源机制，用于处理融合结果元组中的每个值来自于哪些记录的哪个属性值以及通过何种冲突解决方法得来。
在知识推演和深度知识发现过程中，不仅需要向用户返回系统产生的答案，还需要向用户展示答案的来源和证据，即需要解决答案来源的“Why”“How”“Where”“Why Not”问题。与传统关系数据库中的溯源问题基于关系代数的执行路径分析不同的是，在知识推演和深度知识发现中，多了一个自然语言问题理解的过程。因此在回答这类溯源问题时，需要统一的推理和发现问题执行计划的表达模型，根据该模型给出溯源的答案。此外，维护溯源机制很花时间和空间，如何提高溯源的查询性能，同时降低溯源的时空代价也是亟待解决的问题。

2.6.4　D&2V处理

制约传统方法在大数据中使用的3个主要因素是大数据的动态演化性、高速性和海量性（简称D&2V）。知识的动态演化贯穿整个大数据融合过程，它影响着数据融合、知识融合的各种技术，所以还需要结合其他方法具体考虑。但是，其中最为重要的两项工作是：①对动态变化的跟踪和知识演化的建模，对于大数据的特殊性，需要考虑变化的复杂模式，如语义关系等，最好能从中挖掘概念模板以应对数据的高速性和海量性；②应对动态性给数据存储、索引带来的挑战，动态性是影响大数据融合的关键因素，亟待解决。
对于海量性和高速性，主要解决的是它们带来的负面影响，对这两个因素的处理直接关系到大数据融合的性能和效率。海量性和高速性迫使传统的多项式时间算法不再适用，需要权衡精度与速度（效率），大致有4种解决思路：①近似计算，采用近似算法代替原来的精确计算方法；②简约计算（N->K），通过核数据、采样等手段实现模型的精简和算法的快速收敛，达到简约计算，例如发现全量全模态（N）数据中的核数据（K）进行近似，或者通过采样实现多重小样本（K）对全量数据（N）的有效近似；③分治计算（N/K），即通过数据化整为零的手段实现计算的约简，达到算法层面的横向扩展（Scale Out），如网格计算、MapReduce和参数化服务；④增量计算（N->N），即针对数据相对于增量远小于绝对基数的现象，采用增量计算理论，需要支持流式数据的实时OLAP分析。除此之外，也可以借助优化硬件技术来支持大数据的处理。