《大数据集成(1)》一1.3 大数据集成:机遇

1.3 大数据集成:机遇

  大数据集成不仅带来许多以“V”维度为特征的挑战,如第1.2节中我们讨论的。另外,大数据集成与管理分析大数据的基础设施也成就许多机遇,以应对这些挑战。我们主要讨论三个这样的机遇。

1.3.1 数据冗余性

  从不同数据源得到的数据通常存在着部分重叠,因而导致要被集成的大量数据源之间存在巨大的数据冗余。
  在我们给出的航班例子中,这一点非常清楚。例如,有关Airline1航空公司的49号航班的Departure Airport、Scheduled Departure Time、Arrival Airpot和Scheduled Arrival Time的信息可以从Airline1、Airport3和Airfare4三个数据源中的任何一个获得。
  1.2.3节和1.2.4节中的案例研究表明多个领域中存在的冗余性。特别地,[Dalvi et al. 2012]的研究中提到在所研究的各个领域中每个实体所出现的数据源的个数平均还是较大的。如图1-3所示,每个旅店的电话号码平均出现在56个数据源中,而每个图书馆主页平均出现在251个数据源中。更进一步,这些高的平均值并不是由于数据分布的极端偏斜造成的;例如超过80%的餐馆电话号码出现在至少10个不同的数据源,如图1-2中的10-coverage曲线所示。类似地,[Li et al. 2012]的研究中判断出股票领域的16个常见属性和航班领域的6个常见属性,这些属性都分别出现在领域内三分之一以上被分析的数据源中。
  数据冗余的一个主要好处是可以有效地处理大数据集成中数据真实性带来的挑战,我们将在第4章对此进行详细讨论。直观地,如果仅有几个数据源提供有重叠的信息,而数据源对某数据项提供的值是有冲突的,则很难确信地判断出真值。但是如果像在大数据集成中一样存在大量的数据源,我们可以使用复杂的数据融合技术来发现真值。
  数据冗余的第二个好处是开始解决大数据集成中数据多样性带来的挑战,找到数据源模式之间的属性匹配,这在模式对齐中至关重要。直观地,如果一个领域存在很大程度的数据冗余,其实体和数据源的二分图具有良好的连通性(如[Dalvi et al. 2012]中所研究的领域),则可以从一组已知的种子实体出发,使用搜索引擎的技术发现该领域内的大部分实体。当这些实体在不同的数据源有不同的对应模式时,我们就可以很自然地找到不同数据源所使用的模式之间的属性匹配。
  数据冗余的第三个好处是能够为一个领域内的大数据集成发现相关数据源,如果数据源没有预先给定的话。直观的方法仍然是利用一个实体和数据源之间的良连通的二分图,从一组已知的种子实体出发,使用搜索引擎技术迭代地一次发现新的数据源和新实体。

1.3.2 长数据

  现实中很重要的一部分大数据是长数据(long data),即关于随时间演化的实体的数据。
  在我们给出的航班的例子中,航班时间表随时间演化,如Airline1.Schedule表所示。现实中,航空公司和飞机场数据源一般提供所估计的航班出发和到达时间,因而会在短时间内不断变化;航空公司的维护修理日志会提供关于飞机质量随时间变化的情况,等等。
  尽管我们在本章中前面讨论的案例研究中没有特别地讨论如何处理长数据,但我们将在后面章节中描述的一些技术,尤其是用于记录链接(第3章)和数据融合(第4章)的技术,很大程度上利用了长数据。
  直观地,现实世界中的实体演化导致它们的属性值随时间变化。包含这些实体的数据源所提供的信息不总是最新的,如Airfare4.Flight表中所示,过期的值是很普遍的。在这种情境下的记录链接和数据融合是具有挑战的,但是可以利用实体演化一般都是一个渐进和相对平滑的过程这一事实:i)即使航班的一些属性(如Scheduled Departure Time)演化,其他属性(如Departure Airport)不一定发生变化;ii)即使实体在短期内进行演化,这些属性值上的变化通常不会很奇特(例如,航空公司报告的一个航班的估计到达时间的变化)。

1.3.3 大数据平台

  近年来,建立在廉价硬件上的集群(如Hadoop)和分布式编程模型(如MapReduce)的可伸缩的大数据平台获得了重大进步,使大数据的管理和分析获益。
  由于大数据集成中的每个任务,模式对齐、记录链接和数据融合都需要很多的计算资源,所以大数据集成会是非常资源密集的。虽然要充分利用已有的大数据平台还有许多工作要做,但这一领域最近的工作已显示这些任务可以被有效地并行化。我们在后续章节将介绍一些这方面的技术,尤其是关于记录链接和数据融合的。

时间: 2024-10-31 01:24:52

《大数据集成(1)》一1.3 大数据集成:机遇的相关文章

大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这 种惯

大数据面临的挑战:当大数据遭遇云计算

本文讲的是大数据面临的挑战:当大数据遭遇云计算,据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(1TB=1000

XTools观点:大数据太薄CRM助探索厚数据

文章讲的是XTools观点:大数据太薄CRM助探索厚数据,人的一生会给这个世界留下痕迹,呱呱坠地.童言无忌.青梅竹马;三两知己,把酒言欢,激情四射;大山大河.奇峰怪石.高峡平湖;浮华背后,机关算尽,如此种种.随着互联网时代的到来,更多的社交方式愈加普及,人们的痕迹,就像"孙悟空到此一游"一样,以数据的形式被记录下来.喜欢的书.音乐.电影.景色.同道中人 -- 数据之大,难以想象. 许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据&quo

大数据建模 需要了解的九大形式

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识. 当前的数据挖掘形式,是在20世纪http://www.aliyun.com/zixun/aggregation/16333.html">90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式.也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意.20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数

大数据底层平台公司能做多大?

大数据是企业服务市场中的新兴领域,短短几年时间,大数据概念从兴起到落地,开始在各行各业发挥作用,行业政策频出,技术飞速发展,受到资本追捧. 整个大数据行业可大致分为三层,底层基础平台,中间层通用技术,上层行业应用.接下来,爱分析将按照上述分类,逐步介绍各细分领域的行业现状.未来前景.今天是大数据系列的第一篇--底层基础平台. 底层基础平台主要解决的是数据存储.计算的问题,是整个大数据生态的基石.采集到的数据,首先要能高效.快捷地存起来,才能进行数据分析和数据挖掘. 这一层非常重要,同时也是技术含

数据新闻周报:资本活跃,“数据美国”在线大数据可视化工具上线

行业趋势 近日,麻省理工学院推出了一款名为"数据美国"的在线大数据可视化工具,可以实时分析展示美国政府公开数据库.用户只需要输入任意美国地名,就可以检索到反映当地人口统计数据的可视化图表,包括平均家庭收入.房价等.该工具不但对求学.就业.生活.旅游.购物具有极高的参考价值,而且这些社会学大数据经过各种不同的可视化图表展示,可以生成大量"数据新闻",揭示超出人们经验范围的数据.同时,"数据美国"也是政务公开大数据造福社会的一个活生生的应用案例.该项

《Hadoop与大数据挖掘》一1.2 大数据平台

1.2 大数据平台 大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

大数据序幕初开 DCN引领下一代数据中心建设

[天极网服务器频道4月11日消息]大数据时代,数据已经渗透到各个商业领域,成为企业的战略资产之一.掌握更多的数据,就意味着拥有更多获取数据潜在价值的可能.同时,用户需求的剧烈转型和变化使得数据中心的建设.管理.运营面临前所未有的挑战,企业面临的压力正越来越大,如何构建一个高效运作的数据中心迫在眉睫. 作为国内知名的网络设备制造商和解决方案提供商,DCN(神州数码网络有限公司)深入洞察不同用户对于数据信息的深层次需求,积极面对数据中心"大集中"."虚拟化"和"

深度揭秘:大数据时代企业卖技术还是卖数据?

大数据技术的热度这几年一直在上升,现在我们在谈论大数据的时候已经不再仅仅局限于炒作大数据的概念了,更多的是聚焦在一些大数据的具体应用上,作为企业用户来讲,现在也已经开始有越来越多的企业领导和IT管理者逐渐了解大数据同自身业务之间的联系.  我们都知道,当今的企业级市场,不管是渠道市场还是行业市场,数据对于企业来说都存在着巨大的价值,而作为数据资源的核心组成部分,大数据已经成为了很多企业愿意买单的"产品".其实企业在购买大数据服务的原因很简单,就是利用大数据的技术和应用帮助企业进行开源节

2016年大数据在金融领域的10大趋势

2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进.现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长. 银行家们也正在起草大数据战略,制定入门和随后的用例. 对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管.在可见的未来处于第一梯队的大型金融集团都会继续围绕大数据展开各种动作.在低端市场,一些中小型的公司(经纪.资产管理.区域银行.顾问等)能够更快速的适