《大数据集成(1)》一1.3 大数据集成：机遇

1.3 大数据集成：机遇

　　大数据集成不仅带来许多以“V”维度为特征的挑战，如第1.2节中我们讨论的。另外，大数据集成与管理分析大数据的基础设施也成就许多机遇，以应对这些挑战。我们主要讨论三个这样的机遇。

1.3.1 数据冗余性

　　从不同数据源得到的数据通常存在着部分重叠，因而导致要被集成的大量数据源之间存在巨大的数据冗余。
　　在我们给出的航班例子中，这一点非常清楚。例如，有关Airline1航空公司的49号航班的Departure Airport、Scheduled Departure Time、Arrival Airpot和Scheduled Arrival Time的信息可以从Airline1、Airport3和Airfare4三个数据源中的任何一个获得。
　　1.2.3节和1.2.4节中的案例研究表明多个领域中存在的冗余性。特别地，[Dalvi et al. 2012]的研究中提到在所研究的各个领域中每个实体所出现的数据源的个数平均还是较大的。如图1-3所示，每个旅店的电话号码平均出现在56个数据源中，而每个图书馆主页平均出现在251个数据源中。更进一步，这些高的平均值并不是由于数据分布的极端偏斜造成的；例如超过80%的餐馆电话号码出现在至少10个不同的数据源，如图1-2中的10-coverage曲线所示。类似地，[Li et al. 2012]的研究中判断出股票领域的16个常见属性和航班领域的6个常见属性，这些属性都分别出现在领域内三分之一以上被分析的数据源中。
　　数据冗余的一个主要好处是可以有效地处理大数据集成中数据真实性带来的挑战，我们将在第4章对此进行详细讨论。直观地，如果仅有几个数据源提供有重叠的信息，而数据源对某数据项提供的值是有冲突的，则很难确信地判断出真值。但是如果像在大数据集成中一样存在大量的数据源，我们可以使用复杂的数据融合技术来发现真值。
　　数据冗余的第二个好处是开始解决大数据集成中数据多样性带来的挑战，找到数据源模式之间的属性匹配，这在模式对齐中至关重要。直观地，如果一个领域存在很大程度的数据冗余，其实体和数据源的二分图具有良好的连通性（如[Dalvi et al. 2012]中所研究的领域），则可以从一组已知的种子实体出发，使用搜索引擎的技术发现该领域内的大部分实体。当这些实体在不同的数据源有不同的对应模式时，我们就可以很自然地找到不同数据源所使用的模式之间的属性匹配。
　　数据冗余的第三个好处是能够为一个领域内的大数据集成发现相关数据源，如果数据源没有预先给定的话。直观的方法仍然是利用一个实体和数据源之间的良连通的二分图，从一组已知的种子实体出发，使用搜索引擎技术迭代地一次发现新的数据源和新实体。

1.3.2 长数据

　　现实中很重要的一部分大数据是长数据（long data），即关于随时间演化的实体的数据。
　　在我们给出的航班的例子中，航班时间表随时间演化，如Airline1.Schedule表所示。现实中，航空公司和飞机场数据源一般提供所估计的航班出发和到达时间，因而会在短时间内不断变化；航空公司的维护修理日志会提供关于飞机质量随时间变化的情况，等等。
　　尽管我们在本章中前面讨论的案例研究中没有特别地讨论如何处理长数据，但我们将在后面章节中描述的一些技术，尤其是用于记录链接（第3章）和数据融合（第4章）的技术，很大程度上利用了长数据。
　　直观地，现实世界中的实体演化导致它们的属性值随时间变化。包含这些实体的数据源所提供的信息不总是最新的，如Airfare4.Flight表中所示，过期的值是很普遍的。在这种情境下的记录链接和数据融合是具有挑战的，但是可以利用实体演化一般都是一个渐进和相对平滑的过程这一事实：i）即使航班的一些属性（如Scheduled Departure Time）演化，其他属性（如Departure Airport）不一定发生变化；ii）即使实体在短期内进行演化，这些属性值上的变化通常不会很奇特（例如，航空公司报告的一个航班的估计到达时间的变化）。

1.3.3 大数据平台

　　近年来，建立在廉价硬件上的集群（如Hadoop）和分布式编程模型（如MapReduce）的可伸缩的大数据平台获得了重大进步，使大数据的管理和分析获益。
　　由于大数据集成中的每个任务，模式对齐、记录链接和数据融合都需要很多的计算资源，所以大数据集成会是非常资源密集的。虽然要充分利用已有的大数据平台还有许多工作要做，但这一领域最近的工作已显示这些任务可以被有效地并行化。我们在后续章节将介绍一些这方面的技术，尤其是关于记录链接和数据融合的。

时间： 2024-10-31 01:24:52

《大数据集成(1)》一1.3 大数据集成：机遇的相关文章

大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这种惯

大数据面临的挑战：当大数据遭遇云计算

本文讲的是大数据面临的挑战:当大数据遭遇云计算,据IDC的报告,未来十年全球大数据将增加50倍.仅在2011年,我们就将看到1.8ZB(也就是1.8万亿GB)的大数据创建产生.这相当于每位美国人每分钟写3条Tweet,而且还是不停地写2.6976万年.在未来十年,管理数据仓库的服务器的数量将增加10倍以便迎合50倍的大数据增长. 毫无疑问,大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多TB(1TB=1000

XTools观点:大数据太薄CRM助探索厚数据

文章讲的是XTools观点:大数据太薄CRM助探索厚数据,人的一生会给这个世界留下痕迹,呱呱坠地.童言无忌.青梅竹马;三两知己,把酒言欢,激情四射;大山大河.奇峰怪石.高峡平湖;浮华背后,机关算尽,如此种种.随着互联网时代的到来,更多的社交方式愈加普及,人们的痕迹,就像"孙悟空到此一游"一样,以数据的形式被记录下来.喜欢的书.音乐.电影.景色.同道中人 -- 数据之大,难以想象. 许多人现在似乎相信,理解我们这个世界的最佳方式,就是坐在电脑屏幕前分析我们称之为"大数据&quo

大数据建模需要了解的九大形式

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识. 当前的数据挖掘形式,是在20世纪http://www.aliyun.com/zixun/aggregation/16333.html">90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式.也许是因为数据挖掘源于实践而非理论,在其过程的理解上不太引人注意.20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的一种标准化过程,被越来越多的数

大数据底层平台公司能做多大?

大数据是企业服务市场中的新兴领域,短短几年时间,大数据概念从兴起到落地,开始在各行各业发挥作用,行业政策频出,技术飞速发展,受到资本追捧. 整个大数据行业可大致分为三层,底层基础平台,中间层通用技术,上层行业应用.接下来,爱分析将按照上述分类,逐步介绍各细分领域的行业现状.未来前景.今天是大数据系列的第一篇--底层基础平台. 底层基础平台主要解决的是数据存储.计算的问题,是整个大数据生态的基石.采集到的数据,首先要能高效.快捷地存起来,才能进行数据分析和数据挖掘. 这一层非常重要,同时也是技术含

数据新闻周报：资本活跃，“数据美国”在线大数据可视化工具上线

行业趋势近日,麻省理工学院推出了一款名为"数据美国"的在线大数据可视化工具,可以实时分析展示美国政府公开数据库.用户只需要输入任意美国地名,就可以检索到反映当地人口统计数据的可视化图表,包括平均家庭收入.房价等.该工具不但对求学.就业.生活.旅游.购物具有极高的参考价值,而且这些社会学大数据经过各种不同的可视化图表展示,可以生成大量"数据新闻",揭示超出人们经验范围的数据.同时,"数据美国"也是政务公开大数据造福社会的一个活生生的应用案例.该项

《Hadoop与大数据挖掘》一1.2　大数据平台

1.2 大数据平台大数据平台有哪些呢? 一般认为大数据平台分为两个方面,硬件平台和软件平台.硬件平台一般如Open-Stack.Amazon云平台.阿里云计算等,类似这样的平台其实做的是虚拟化,即把多台机器或一台机器虚拟化成一个资源池,然后给成千上万人用,各自租用相应的资源服务等.而软件平台则是大家经常听到的,如Hadoop.MapReduce.Spark等,也可以狭义理解为Hadoop生态圈,即把多个节点资源(可以是虚拟节点资源)进行整合,作为一个集群对外提供存储和运算分析服务. Hadoo

大数据序幕初开 DCN引领下一代数据中心建设

[天极网服务器频道4月11日消息]大数据时代,数据已经渗透到各个商业领域,成为企业的战略资产之一.掌握更多的数据,就意味着拥有更多获取数据潜在价值的可能.同时,用户需求的剧烈转型和变化使得数据中心的建设.管理.运营面临前所未有的挑战,企业面临的压力正越来越大,如何构建一个高效运作的数据中心迫在眉睫. 作为国内知名的网络设备制造商和解决方案提供商,DCN(神州数码网络有限公司)深入洞察不同用户对于数据信息的深层次需求,积极面对数据中心"大集中"."虚拟化"和"

深度揭秘：大数据时代企业卖技术还是卖数据?

大数据技术的热度这几年一直在上升,现在我们在谈论大数据的时候已经不再仅仅局限于炒作大数据的概念了,更多的是聚焦在一些大数据的具体应用上,作为企业用户来讲,现在也已经开始有越来越多的企业领导和IT管理者逐渐了解大数据同自身业务之间的联系. 我们都知道,当今的企业级市场,不管是渠道市场还是行业市场,数据对于企业来说都存在着巨大的价值,而作为数据资源的核心组成部分,大数据已经成为了很多企业愿意买单的"产品".其实企业在购买大数据服务的原因很简单,就是利用大数据的技术和应用帮助企业进行开源节

2016年大数据在金融领域的10大趋势

2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进.现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长. 银行家们也正在起草大数据战略,制定入门和随后的用例. 对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管.在可见的未来处于第一梯队的大型金融集团都会继续围绕大数据展开各种动作.在低端市场,一些中小型的公司(经纪.资产管理.区域银行.顾问等)能够更快速的适

猜你喜欢

CSS实例教程:微博新版查看大图前后浏览效果

文章简介:微博新版查看大图前后浏览的另外一种实现. 一.新浪微博新版查看大图你说我是先讲些废话呢还是讲些废话呢~~ 搜索"新版微博查看大图",结果前三如下: 其实这种效果,我在人 ...

MD5加密的javascript实现

javascript|加密 <script>/* MD5 Message-Digest Algorithm - JavaScriptMODIFICATION HISTORY:1.0 16- ...

jsp+mysql制作简单的留言板(1)

js|mysql 留言板要实现的功能是:浏览的人能留言并能分页的查看留言,管理员能对留言进行处理!这个留言板由9个小程序组成,分别是:board.jsp;message.html;opendata.j ...

从三方面浅谈企业站点如何推出符合访客胃口的内容

对于所有企业站点来说,摆在面前的最关键问题就是如何提供给他们的目标用户想要的内容,因为这不仅仅是关系到站点SEO,同时牵涉到站点的转换率高低.而如何写出符合访客胃口的内容呢?我想每一个企业站长都对这一 ...

用Jace整合Java和C++

摘要 Jace是一种免费的开放源代码的工具,它使我们能够轻松地开发JNI(Java本机接口)代码.本篇文章详细地分析了JNI API的问题,以及如何使用Jace解决这些问题. 如果没有更深的了解,我们 ...

百度卫士如何查杀病毒？

百度卫士软件有"闪电云查杀"."全盘查杀"."自定义查杀"三种病毒查杀模式,您可以选择您需要的模式进行病毒查杀. "闪电云查杀&q ...

电脑插入U盘没反应怎么办？

你是否有过插U盘后没有任何反应,根据经验,一般按如下步骤进行处理就可以解决了: 1.换台机子试一下是不是U盘的问题. 2.驱动安装问题. 3.win2003不会自动给移动设备分配盘符,在设备管理器 ...

显卡画质的决定因素有哪些

1.PCB的层数和质量决定了显卡的视频信号纯净度首先,显卡的PCB基板的质量以及PCB的层数在很大程度上决定了显卡画质的好坏.从理论上来说,PCB的基板层数越多,其电气信号的相互干扰情况就越少, ...

十二条提升Ubuntu桌面体验的技巧和应用

大家都在说要从Windows移至Ubuntu.但是Linux用户的想法则不同.不管你想使用Ubuntu还是其他版本,事实都是Ubuntu能带来高效率的桌面. 本文将分享Datamation网站 ...

自动、静态、寄存器、易失变量的区别 .

(一)自动变量什么是自动变量呢?自动变量就是指在函数内部定义使用的变量.他只是允许在定义他的函数内部使用它.在函数外的其他任何地方都不能使用的变量.自动变量是局部变量,即它的区域性是在定义他的 ...

铁矿石巨头步步紧逼中国钢企降价40%的目标更加艰难

力拓与日韩企业签下33%的降价幅度,淡水河谷只降低了28.2%,中国钢企降价40%的目标更加艰难铁矿石巨头步步紧逼中钢协积极应对 □ 本报记者马红雨近日,国际三大铁矿石巨头之一的巴西淡水河谷宣 ...

C# Using用法三则

(1)引用命名空间 using作为引入命名空间指令的用法规则为: using Namespace; 在.NET程序中,最常见的代码莫过于在程序文件的开头引入System命名空间,其原因在于Syst ...

java基础传递参数

惯例: 我是温浩然: Java基础之,Java方法传递参数: public class Text { public static void main(String[] args) { Example ...

美国国土安全部试图商业化的八种网络安全新技术

经联邦政府批准,美国国土安全部(DHS)公开最新开发的8种网络安全技术,并准备投入10亿美金,寻求私营企业的帮助,以将其转化为实用型的商业产品. 在DHS发布的第四份<网络安全部门转为实用技术指 ...

站长想把网站做好需要专心

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅网站越来越多,学习引擎优化的人也越 ...

C#放缩、截取、合并图片并生成高质量新图的类

原文:C#放缩.截取.合并图片并生成高质量新图的类 using System;using System.Drawing;using System.Drawing.Imaging;using Syste ...

C#程序以管理员权限运行

原文:C#程序以管理员权限运行 C#程序以管理员权限运行在Vista 和 Windows 7 及更新版本的操作系统,增加了 UAC(用户账户控制) 的安全机制,如果 UAC 被打开,用户即使以管理员权 ...

分享对付网络骗子的一些方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅前两天,遇到了1个骗子,起因是这样 ...

权限的问题,求SQL语句

问题描述我有一个权限系统,授权页面是左边树,右边权限.树的结构需要部门--岗位--用户要能给用户授权,也能给岗位授权表结构是这样的部门表idname岗位表idname用户表idname部门岗位用 ...

jQuery中借助deferred来请求及判断AJAX加载的实例讲解_jquery

ajax请求异步队列加载我们在开发程序的时候通常会碰到使用ajax加载数据显示到列表的情况.ajax默认使用异步加载(async:true).为什么不使用同步呢,因为ajax同步加载会UI渲染线程阻塞 ...

PHP中使用Imagick读取pdf并生成png缩略图实例_php技巧

pdf生成png首页缩略图 (服务器需要支持Imagick) 复制代码代码如下: /** * PDF2PNG * @param $pdf 待处理的PDF文件 * @param $pat ...

javascript:FF/Chrome与IE动态加载元素的区别说明_javascript技巧

复制代码代码如下: <!doctype html><html><head> <title>ff 与 ie 动态加载元素的区别</title> ...

详解mysql双查询注入教程

介绍一下双查询注入,有时候我们通过order by 语句获取到了确定的列数,可是当我们使用union select或union select all查询的时候, f4ck.net/index.php? ...

eval-怎么在java中实现类似show dbs 这样的mongo语句啊?

问题描述怎么在java中实现类似show dbs 这样的mongo语句啊? 怎么在java中实现类似show dbs 这样的mongo语句啊?是用db.eval这个方法吗?具体怎么用啊,求指教啊解 ...

c# winform生成web

问题描述如题,像hfs网络文件服务器一个,一个软件运行就可以,不需要服务端解决方案解决方案二:什么东东,你就说一句,我们看不懂图也解决方案三:winfrom载入web空间不行么?

《名利场》：Facebook的掘金之路

Facebook创始人兼CEO马克-扎克伯格万众瞩目的http://www.aliyun.com/zixun/aggregation/1560.html">Facebook终于在去年 ...

python-django的model不能创建对应表

问题描述 django的model不能创建对应表我的python的版本是3.4django的版本是1.7.2 这个是我的models.py文件 from django.db import model ...

Elasticsearch模块——CRUD

ElastICsearch的基本操作:增删改查,有必要了解,以备不时之需.增删改查是数据库的基础操作方法.ES 虽然不是数据库,但是很多场合下,都被人们当做一个文档型 NoSQL 数据库在使用,原因自 ...

2016年大数据在金融领域的10大趋势

2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进.现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环 ...

Python采用socket模拟TCP通讯的实现方法_python

本文实例讲述了Python采用socket模拟TCP通讯的实现方法.分享给大家供大家参考.具体实现方法如下: 对于TCP server端的创建而言,分为如下几个步骤: 创建socket对象(socke ...

热搜