数据融合:大数据分析的瓶颈

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。

每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合(data blending)就成为不可或缺的一步。

数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。

数据融合有六个基本步骤:(1)连接所需多源数据库并获取相关数据,(2)研究和理解所获得的数据,(3)梳理和清理数据,(4)数据转换和建立结构,(5)数据组合,(6)建立分析数据集。这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。最近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。

数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

多源的数据可以归纳为三大类:(1)一手数据(Primary Data),包括企业或组织直接采集掌控的内部运行数据和营销数据,(2)二级数据(Secondary Data),第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,(3)科学数据(Scientific Data),包括科学研究 的成果、指数、算法、模型等。

这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。

数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。

本文转自d1net(转载)

时间: 2024-11-06 16:22:44

数据融合:大数据分析的瓶颈的相关文章

多源数据融合:大数据分析的瓶颈

数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈. 利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例.有些人已此将大数据吹得神乎其神,好像它能成为万能药.其实,这只是大数据应用中的很小一部分.作为智能决策的支持手段之一,大数据在企业.事业.政府.社会管理和发展上的应用是更重要的挑战.在这里,多源数据的融合就成为大数据分析中的瓶颈. 每个亲

人人都是“数据动物” 大数据分析激活产业链

马云在给阿里巴巴员工的一封内部邮件中说,以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代.随着计算机技术的发展,大数据运算变得越来越现实,基于大数据应用服务的公司不断崭露头角.大数据在营销领域的应用将广告变成了"窄告"--精准营销,而在互联网金融大热的背景下,大数据在金融业征信方面的应用也在逐渐兴起. 人人都是"数据动物" 不同于"天空中没有留下鸟的痕迹,但我已飞过",人们不论是网上聊天.购物还是浏

激活数据 Teradata大数据分析瑞士军刀

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;       [IT168 专稿]谈到大数据,很多人往往会津津乐道地提起"啤酒和尿布"的故事.这个故事产生于美国沃尔玛超市,看起来,啤酒和尿布似乎完全是面向完全不同顾客群的商品,但沃尔玛通过对数据做产品关联性分析,结果显示:在居民区中尿布卖得好的店面啤酒也卖得很好.原来,一般太太让先生买尿布的时候,先生一般都会犒劳自己两听啤酒,因此啤酒和尿布一起购

[重磅]清华大数据产业联合会"应用创新"系列第1讲:大数据分析(46PPT)

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势.清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产.学.研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢.会议由联合会秘书长王霞主持. 到场的嘉宾有: 清华大学杨斌副校长,清华大学数据科学研究院执行副院长.清华大数据产业联合会会长韩亦舜

解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解.当然,大数据分析最核心的,关于数据的来源更是至关重要的.在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题.接下来,小编就带大家来了解下大数据分析及其数据来源. 大数据分析 大数据分析,顾名思义,就是对规模巨大的数据进行分析

大数据百科:传统分析 vs 大数据分析

"大数据"是用来表示大量的没有按照传统的相关格式存储在企业数据库中的非结构化数据的总术语.以下是大数据的一般特点. 数据存储量相对于当前企业TB(TERA BYTES)字节的存储限制,定义在PB(PETA BYTES)字节,EXA字节以及更高的容量顺序. 通常它被认为是非结构化数据,并不适合企业已经习惯使用的关系型数据库之下数据的生成使用的是数据输入非传统的手段,像无线射频识别(RFID),传感器网络等. 数据对时间敏感,且由数据的收集与相关的时区组成. 在过去,专业术语"分

如何理解大数据分析

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据.而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语. 大数据定义之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈."大数据"一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值. 大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的

《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代

1.2 大数据分析时代 如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报.换言之,如果把大数据比作一块沃土,那么只有强化对土地的"耕耘"能力,才能通过"加工"实现数据的"增值". 随着"大数据时代"的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重.但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大.算法分析特别复杂等特点.

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础