《大数据集成(1)》一第2章 模式对齐

第2章 模式对齐

  数据集成的第一部分是模式对齐。如我们第1.2.3节中所示,在同一领域有上万乃至千万的数据源,但是它们常常用不同的模式来描述该领域。例如,在1.1节的例子中,航班领域的4个数据源使用非常不同的模式;它们包含不同数目的表格和不同数目的属性;它们可能对同一属性使用不同的名字(如Airline2.Flight表中的Scheduled Arrival Date属性和Airport3.Arrivals表中的Scheduled属性);它们可能使用相同的名字表示具有不同语义的属性(如Arrival Time在一个数据源表示飞机着陆时间,而在另外一个数据源表示飞机到达登机口的时间)。要将不同数据源的数据集成起来,第一步是对齐不同的模式以明白哪些属性具有相同的语义而哪些不相同。
  在刚开始数据集成时,目标通常是集成一个组织内独立建构的成百上千的数据源。可以用一些半自动的工具如Clio [Fagin et al. 2009]来简化模式对齐。2.1节简要概述传统解决方法。
  大数据环境下的数据集成问题要困难得多。其目标通常不是集成一个组织内的数据,而是集成Web上的结构化数据,表现为深网数据、Web表格或列表。所以,要集成的数据源从成百计增长到成百万计;数据的模式也在不断变化。大数据的海量性和高速性同时也极大地增加了数据的多样性,因而需要新的技术和基础架构来解决模式的异构性。
  2.2节描述数据空间(dataspace)系统如何扩展传统数据集成的基础架构来解决大数据的多样性和高速性。数据空间遵循一种按需服务的原则:一开始提供诸如简单的关键词搜索这样的服务,然后随着时间渐渐地逐步发展模式对齐并改善搜索质量。
  2.3节描述模式对齐的新技术,使其能够解决集成Web上结构化数据时的海量性和多样性的问题。集成Web结构化数据包括通过爬取和索引的技术将深网数据表层化,并集成来自Web表格和列表的数据。

时间: 2024-12-20 20:38:31

《大数据集成(1)》一第2章 模式对齐的相关文章

《大数据集成(1)》一1.3 大数据集成:机遇

1.3 大数据集成:机遇 大数据集成不仅带来许多以"V"维度为特征的挑战,如第1.2节中我们讨论的.另外,大数据集成与管理分析大数据的基础设施也成就许多机遇,以应对这些挑战.我们主要讨论三个这样的机遇. 1.3.1 数据冗余性 从不同数据源得到的数据通常存在着部分重叠,因而导致要被集成的大量数据源之间存在巨大的数据冗余. 在我们给出的航班例子中,这一点非常清楚.例如,有关Airline1航空公司的49号航班的Departure Airport.Scheduled Departure T

《大数据集成(1)》一1.4 章节安排

1.4 章节安排 本书的后续章节安排如下.在接下来的3章中,我们集中讨论数据集成的3个主要任务.第2章讨论模式对齐,第3章讨论记录链接,第4章讨论数据融合.这些章的结构类似:首先快速介绍传统数据集成中的任务,然后具体描述近年来的文献中如何解决各式各样由海量性.高速性.多样性和真实性带来的大数据集成中的挑战.在第5章,我们概述大数据集成所特有的新出现的研究主题.最后,第6章总结全书.

《大数据集成(1)》一导读

前 言 当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加.大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任.因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程.但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的"冷拼盘",顶多是加点"调料",原材料没有新鲜感.现阶段无论多么新多么好的人才培养计划,都

《大数据集成(1)》一1.2 大数据集成:挑战

1.2 大数据集成:挑战 为了更好地理解大数据集成带来的各种挑战,我们给出5个最近的案例研究,实验性地检查大数据集成中的Web数据源的各种特征,以及对这些特征自然分类的维度. "当你能度量你所说的,并能将它表示成数字,那么你就认识它一些了." --Lord Kelvin 1.2.1 "V"维度 大数据集成在多个维度上不同于传统数据集成,类似于大数据不同于传统数据库的维度. 1.海量性(Volume) 在大数据时代,不仅数据源包含大量的数据,而且数据源的数目也增长到千

《大数据导论》一第2章 采用大数据的商业动机与驱动

第2章 采用大数据的商业动机与驱动 在当今世界的许多组织中,业务可以像其所采用的技术那样进行"架构".这种观念上的转变体现在当今企业架构领域的不断扩大,即过去只与技术架构紧密结合,而现在却也同样包含业务架构.尽管如今人们还只是从一个机械系统的视角来审视一批批的业务,即一条条指令由行政人员发布给主管,再传递给前线的员工们,但是,基于链接与评测的反馈循环机制为管理决策的有效性提供了保障. 这种从决策到实施再到对结果的测评的循环使得企业有机会不断优化其运营.然而事实上,这种机械化的管理观点正

《大数据集成(1)》一1.1 传统数据集成

1.1 传统数据集成 数据集成的目标是为多个自治数据源中的数据提供统一的存取.这一目标说起来容易,但实现起来已被证明异常困难,即使是针对少量几个结构化数据源,即传统的数据集成[Doan et al. 2012]. 为了理解数据集成中一些挑战性的问题,这里用一个航空领域的例子来说明.该领域的常见任务是跟踪航班的起飞和降落,检查航班时刻表以及预定航班等. 1.1.1 航班示例:数据源 我们有一些不同类型的数据源,包括:两个航空公司数据源Airline1和Airline2(如美国联合航空公司.美国航空

Informatica大数据集成解决方案扩展应用

华为与Informatica日前宣布,Informatica PowerCenter数据集成解决方案通过华为Ready测试.该方案部署在华为FusionInsight大数据平台之后,将可提供基于Hadoop大数据平台的ETL(Extract-Transform-Load)处理功能.该技术包含图形化功能强大的ETL处理引擎,能够实现无以伦比的高可扩展性和高性能,为大数据平台提供数据采集.数据转换.数据质量提升及低延时数据同步等能力,从而能够让企业快速.准确地从海量数据中提取关键业务洞察. Huaw

大数据如何支撑更好的商业模式来驱动精细化运营?

互联网思维UFO模型中的U代表User experience,即极致用户体验,其对应的方向是产品设计;F代表Freemium,即免费商业模式,其对应的方向是商业模式研究和设计;O代表精细化运营,其对应的方向是产品运营,而大数据在这三个方向的应用起到不同程度的作用.其中,大数据与F(免费商业模式)及U(极致用户体验)关联度或者驱动度中等,与O(精细化运营)关联度或驱动度最高. 大数据如何支撑更好的商业模式? 好的免费商业模式要求: (1)通过免费或者"利润超薄"的产品或服务发展大规模的用

大数据时代的图书馆科研用户服务模式探索

大数据时代的图书馆科研用户服务模式探索 周涛 杨志萍 王春明 大数据时代的来临,图书馆特别是研究型图书馆以及大学图书馆正面临着贡献边缘化的危机.通过对知识创造的生命周期模型进行分析,当前和未来科技创新需要科研数据管理和基于知识的交互协同创造能力.图书馆服务应抓住机遇,通过科研数据管理与用户关系管理相结合,探索融入科研一线,跟踪科研全过程的图书馆知识化服务模式,提升图书馆的竞争力.本文基于国外的图书馆科研数据管理以及用户关系管理方面,从技术支撑.科研数据组织.数据分析到用户关系管理等,探索该服务模