第2章 模式对齐
数据集成的第一部分是模式对齐。如我们第1.2.3节中所示,在同一领域有上万乃至千万的数据源,但是它们常常用不同的模式来描述该领域。例如,在1.1节的例子中,航班领域的4个数据源使用非常不同的模式;它们包含不同数目的表格和不同数目的属性;它们可能对同一属性使用不同的名字(如Airline2.Flight表中的Scheduled Arrival Date属性和Airport3.Arrivals表中的Scheduled属性);它们可能使用相同的名字表示具有不同语义的属性(如Arrival Time在一个数据源表示飞机着陆时间,而在另外一个数据源表示飞机到达登机口的时间)。要将不同数据源的数据集成起来,第一步是对齐不同的模式以明白哪些属性具有相同的语义而哪些不相同。
在刚开始数据集成时,目标通常是集成一个组织内独立建构的成百上千的数据源。可以用一些半自动的工具如Clio [Fagin et al. 2009]来简化模式对齐。2.1节简要概述传统解决方法。
大数据环境下的数据集成问题要困难得多。其目标通常不是集成一个组织内的数据,而是集成Web上的结构化数据,表现为深网数据、Web表格或列表。所以,要集成的数据源从成百计增长到成百万计;数据的模式也在不断变化。大数据的海量性和高速性同时也极大地增加了数据的多样性,因而需要新的技术和基础架构来解决模式的异构性。
2.2节描述数据空间(dataspace)系统如何扩展传统数据集成的基础架构来解决大数据的多样性和高速性。数据空间遵循一种按需服务的原则:一开始提供诸如简单的关键词搜索这样的服务,然后随着时间渐渐地逐步发展模式对齐并改善搜索质量。
2.3节描述模式对齐的新技术,使其能够解决集成Web上结构化数据时的海量性和多样性的问题。集成Web结构化数据包括通过爬取和索引的技术将深网数据表层化,并集成来自Web表格和列表的数据。