《大数据集成(1)》一1.4 章节安排

1.4 章节安排

  本书的后续章节安排如下。在接下来的3章中,我们集中讨论数据集成的3个主要任务。第2章讨论模式对齐,第3章讨论记录链接,第4章讨论数据融合。这些章的结构类似:首先快速介绍传统数据集成中的任务,然后具体描述近年来的文献中如何解决各式各样由海量性、高速性、多样性和真实性带来的大数据集成中的挑战。在第5章,我们概述大数据集成所特有的新出现的研究主题。最后,第6章总结全书。

时间: 2024-10-29 06:14:13

《大数据集成(1)》一1.4 章节安排的相关文章

《大数据集成(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《大数据集成(1)》一1.3 大数据集成:机遇

1.3 大数据集成:机遇 大数据集成不仅带来许多以"V"维度为特征的挑战,如第1.2节中我们讨论的.另外,大数据集成与管理分析大数据的基础设施也成就许多机遇,以应对这些挑战.我们主要讨论三个这样的机遇. 1.3.1 数据冗余性 从不同数据源得到的数据通常存在着部分重叠,因而导致要被集成的大量数据源之间存在巨大的数据冗余. 在我们给出的航班例子中,这一点非常清楚.例如,有关Airline1航空公司的49号航班的Departure Airport.Scheduled Departure T

《大数据集成(1)》一1.1 传统数据集成

1.1 传统数据集成 数据集成的目标是为多个自治数据源中的数据提供统一的存取.这一目标说起来容易,但实现起来已被证明异常困难,即使是针对少量几个结构化数据源,即传统的数据集成[Doan et al. 2012]. 为了理解数据集成中一些挑战性的问题,这里用一个航空领域的例子来说明.该领域的常见任务是跟踪航班的起飞和降落,检查航班时刻表以及预定航班等. 1.1.1 航班示例:数据源 我们有一些不同类型的数据源,包括:两个航空公司数据源Airline1和Airline2(如美国联合航空公司.美国航空

《大数据集成(1)》一1.2 大数据集成:挑战

1.2 大数据集成:挑战 为了更好地理解大数据集成带来的各种挑战,我们给出5个最近的案例研究,实验性地检查大数据集成中的Web数据源的各种特征,以及对这些特征自然分类的维度. "当你能度量你所说的,并能将它表示成数字,那么你就认识它一些了." --Lord Kelvin 1.2.1 "V"维度 大数据集成在多个维度上不同于传统数据集成,类似于大数据不同于传统数据库的维度. 1.海量性(Volume) 在大数据时代,不仅数据源包含大量的数据,而且数据源的数目也增长到千

Informatica大数据集成解决方案扩展应用

华为与Informatica日前宣布,Informatica PowerCenter数据集成解决方案通过华为Ready测试.该方案部署在华为FusionInsight大数据平台之后,将可提供基于Hadoop大数据平台的ETL(Extract-Transform-Load)处理功能.该技术包含图形化功能强大的ETL处理引擎,能够实现无以伦比的高可扩展性和高性能,为大数据平台提供数据采集.数据转换.数据质量提升及低延时数据同步等能力,从而能够让企业快速.准确地从海量数据中提取关键业务洞察. Huaw

《大数据集成(1)》一2.2 应对多样性和高速性的挑战

2.2 应对多样性和高速性的挑战 一个数据集成系统极大地依赖于数据源和中间模式之间的模式映射来完成查询重写.但是,众所周知创建和维护这些映射并不容易,需要大量的资源.前期投入的经历以及专业技术等.虽然已经有帮助生成模式映射的工具:但是,仍然需要领域专家来改进自动生成的映射.因而,模式对齐成为建立一个数据集成系统的主要瓶颈之一.在大数据情况下,有巨大数量的数据源而且数据的模式可能会不断变化,要生成完美的模式映射并且使它们能随着不断演化的数据源模式而更新是不可能的. [Franklin et al.

《大数据集成(1)》一第2章 模式对齐

第2章 模式对齐 数据集成的第一部分是模式对齐.如我们第1.2.3节中所示,在同一领域有上万乃至千万的数据源,但是它们常常用不同的模式来描述该领域.例如,在1.1节的例子中,航班领域的4个数据源使用非常不同的模式:它们包含不同数目的表格和不同数目的属性:它们可能对同一属性使用不同的名字(如Airline2.Flight表中的Scheduled Arrival Date属性和Airport3.Arrivals表中的Scheduled属性):它们可能使用相同的名字表示具有不同语义的属性(如Arriv

大数据时代:集成大数据与数据仓库

集成策略 数据集成是指将来源于不同系统的数据组合在一起,供业务用户研究不同的行业行为及客户行为的数据处理方式.在数据集成应用早期,数据仅限于交易系统及其应用.业务决策的制定以决策平台为指导,而有限的数据集提供了创建决策平台的基础. 数据容量与数据类型在过去三十年里大幅增长,数据仓库技术从无到有,基础架构和技术的发展满足了分析和数据存储需求.这一切彻底改变了数据集成的前景. 传统数据集成技术主要关注于架构和相关编程模型的ETL.ELT.CDC和EAI类型.然而,在大数据环境里,这些技术需要根据规模

IBM杰出工程师:如何集成和治理大数据?

文章讲的是IBM杰出工程师:如何集成和治理大数据,"大数据治理"在IBM杰出工程师Ron Ben Natan博士的眼中要比传统结构化数据的治理难度大得多.他认为大数据治理既有基于传统的编程模式,又有大数据下特有的方式,是没法利用传统数据治理方式来操作的.同时,在大数据的模式下,出现大量新的数据结构和新技术,如聚合型数据结构和JSON和Avro技术等.以上种种都体现出大数据的治理更具有挑战性. 在北京国家会议中心举办的"见智,见未来--IBM 2013技术峰会"上,I