多源数据融合:大数据分析的瓶颈

数据处理新工具使数据科学家从数据准备的繁琐工作中解放出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例。有些人已此将大数据吹得神乎其神,好像它能成为万能药。其实,这只是大数据应用中的很小一部分。作为智能决策的支持手段之一,大数据在企业、事业、政府、社会管理和发展上的应用是更重要的挑战。在这里,多源数据的融合就成为大数据分析中的瓶颈。

每个亲身参加过大数据项目的数据科学家、数据分析师、数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上。这其中多源数据的融合是最耗费资源的任务之一。难怪最近纽约时报惊呼:“数据科学家把高达 80%的时间用于数据准备而不是用来发现新的商业智能”。

传统的统计分析经常是对单一数据源(营销数据、行政报表、问卷调查、人口普查等)进行深入的追踪和分析。分析人员对数据的来源和结构有一定的控制和深层的了解。在大数据时代,数据源是多样的、自然形成的、海量的数据常常是半结构或无结构的。这就要求数据科学家和分析师驾驭多样、多源的数据,将它们梳理后进行挖掘和分析。在这个过程中,数据融合(data blending)就成为不可或缺的一步。

数据融合与数据仓库(Data Warehouse)、数据一体化(Data Integration)不同。它的目的不是将一个企业(Enterprise)或组织的所有数据集中在一起并标准化而产生唯一的真相(Single Truth)。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集(Analytic Dataset)。这个分析数据集是个独立的和灵活的实体,可随数据源的变化重组、调整和更新。数据融合胜于数据仓库和数据一体化的另一点是它能包容多源数据。

数据融合有六个基本步骤:

  • 连接所需多源数据库并获取相关数据
  • 研究和理解所获得的数据
  • 梳理和清理数据
  • 数据转换和建立结构
  • 数据组合
  • 建立分析数据集

这个过程的每一步都需要数据工作者认真细致的思考、辨认、测试、清理、最后产生可信赖、有意义的分析数据库。在过去,这个数据准备过程很大程度上是通过手动,十分费时和艰辛。即使有数据处理的软件(如Excel, SAS, SPSS等),每个数据工作者也都是自己使用所熟悉的工具,形成个性化的,充其量是半自动的数据准备程序。最近几年,大数据技术公司将数据处理整合过程中相关技术集合,组合,提升后开发出专门用于数据融合的新工具。应用这些直观、可视、高效的软件工具,数据准备的过程的工效大大提高,在一定程度上解决了数据融合的技术瓶颈。

数据融合的另一瓶颈是思维。打个比方,数据融合就像水泥的现场合成。水泥制作可以从人工搅拌变为机械合成,提高了工效。但水泥配置仍需要正确的配方;沙、石、混凝土的比例,以及相关化学成份的添加对达到水泥的质量标准至关重要。数据处理新工具使数据科学家从数据准备的繁琐工作中解放了出来,但如何根据每个数据分析项目量体定制,融合多源数据以形成有效的分析数据集仍是数据科学家必须面对的一个更具挑战性的瓶颈。

多源的数据可以归纳为三大类:

  • 一手数据(Primary Data),包括企业或组织直接采集掌控的内部运行数据和营销数据,
  • 二级数据(Secondary Data),第三者采集、整理、和提供的二手数据,如经济指标、人口普查、民意调查、网路数据等,
  • 科学数据(Scientific Data),包括科学研究 的成果、指数、算法、模型等。

这三类数据为数据为驱动的智能决策提供了不同的观察角度。一手数据具体、灵活、快速积累能够实时或接近实时地为决策者提供监测、追踪、描述信息。二级数据一般是定期公布的数据,它能提供国家、地区、行业的状况信息,成为数据分析中的可比性坐标。科学数据的更新是不定时的,但它代表着目前科研成果,对数据分析的建模和算法提供科学基础。在大数据分析项目中,数据科学家需要针对具体研究课题同时收集、整理、融合相关的三类数据。数据科学家的水平就体现在将三类数据合理、有效、有意义的融合上。

数据融合是目前大数据应用和智能决策过程中一个瓶颈。这个挑战引发了新一轮大数据工具的快速发展。根据2016年高德纳公司数据管理和分析软件工具的评估报告,自我服务式数据准备软件(Self-service Data Preparation)已成为发展最快的工具之一。这一发展趋势应引起我们的关注。同时,数据融合的思维瓶颈仍是所有数据科学家必须面对的更高层次的挑战。

本文作者:张小彦

来源:51CTO

时间: 2024-11-09 06:07:43

多源数据融合:大数据分析的瓶颈的相关文章

数据融合:大数据分析的瓶颈

利用互联网购物的营销数据来追踪和勾画消费行为并以此为据促销是大数据应用的成功典型案例.有些人已此将大数据吹得神乎其神,好像它能成为万能药.其实,这只是大数据应用中的很小一部分.作为智能决策的支持手段之一,大数据在企业.事业.政府.社会管理和发展上的应用是更重要的挑战.在这里,多源数据的融合就成为大数据分析中的瓶颈. 每个亲身参加过大数据项目的数据科学家.数据分析师.数据库管理员都会告诉你,项目的80%的时间和经费花在数据的准备工作上.这其中多源数据的融合是最耗费资源的任务之一.难怪最近纽约时报惊

开源与闭源的融合构建大数据分析生态

大数据分析在日积月累的过程中正在不断发生着改变,之前数据分析更多聚焦在B2C领域,现在随着物联网的发展则转向B2B领域,形成B2B+B2C的模式.麦肯锡报告显示,数据分析70%的价值来自于B2B,30%的价值来自于B2C,所以大家都在向2B市场分析来做转型. 但目前B2B数据分析整个市场总量还很小,而且对数据分析的要求更高.因为单一平台不能解决大数据的所有问题,这也有了开源与闭源技术的混合需求,构建大数据分析的生态系统,在IoT数据大量爆发的时代为各行各业提供对应的分析能力. IoT数据分析需要

微软企业级大数据分析策略:融合Hadoop

几个月前,微软宣布了自己的用于大数据管理.分析和挖掘的Hadoop发布版HDInsight.记者联系到了SQL Server的高级产品营销经理Val Fontama,希望进一步了解微软的企业级大数据到底如何. 关于企业中数据集规模的增长趋势: 数据的海洋一直在增长.有预测表明业务信息存储量每年都会加倍.例如,Gartner发现全世界的信息量每年在以最少59%的速率增长,而其中大约85%的数据是"非结构化"的--比如视频剪辑.RFID标签和网站日志.这些非结构化数据用传统的数据管理系统来

聚合大数据分析和应用玩家 他们搞啥?

文章讲的是聚合大数据分析和应用玩家 他们搞啥,近年来,大数据正日益成为国家基础性战略资源,蕴藏着巨大的潜力和能量.在国家层面,发展大数据已成为提升竞争力的战略选择;在经济层面,发展大数据已成为打造新动能的关键要素;在行业层面,发展大数据已成为驱动转型发展的重要引擎;推动大数据发展已成为从政府到民间.从行业组织到企业机构的社会共识. 在这样的背景之下,2016年9月13-14日,国内独立第三方移动数据服务平台TalkingData主办的T112016暨TalkingData智能大数据峰会在北京中国

如何设计企业级大数据分析平台?

传统企业的OLAP几乎都是基于关系型数据库,在面临"大数据"分析瓶颈,甚至实时数据分析的挑战时,在架构上如何应对?本文试拟出几个大数据OLAP平台的设计要点,意在抛砖引玉. 突破设计原则 建设企业的大数据管理平台(Big Data Management Platform),第一个面临的挑战来自历史数据结构,以及企业现有的数据库设计人员的观念.原则.数据关系.ACID在关系数据库几十年的统治时期是久得人心,不少开发人员都有过为文档.图片设计数据表,或将文档.图片序列化为二进制文件存入关系

《Spark与Hadoop大数据分析》——1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色

1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 传统的数据分析使用关系型数据库管理系统(Relational Database Management System,RDBMS)的数据库来创建数据仓库和数据集市,以便使用商业智能工具进行分析.RDBMS 数据库采用的是写时模式(Schema-on-Write)的方法,而这种方法有许多缺点. 传统数据仓库的设计思想是用于提取.转换和加载(Extract, Transform, and Load,ETL)数据,据此回答与用户需求

《Spark与Hadoop大数据分析》一一

3.1 启动 Spark 守护进程 如果你计划使用 Standalone 的集群管理器,则需要启动 Spark 的主机(master)和工作机(worker)的守护进程(daemon),它们是 Spark 架构的核心组件.守护进程的启动/停止在不同的发行版里略有差异.Hadoop 发行版(如 Cloudera.Hortonworks 和 MapR)会把 Spark 作为服务,并把 YARN 作为默认的资源管理器.这意味着在默认情况下所有 Spark 应用程序都会在 YARN 框架上运行.但是,要

大数据分析和决策是新一代智慧城市的大脑

自智慧地球概念于2008年11月提出以来,整个地球都沉浸在如何变得更加智慧这个庞大的课题里,各种想法层出不穷,但我们看到的却是地球神经系统的不断发达而智能缺乏.本文借神经系统和大脑智慧这个话题,就如何建立智慧城市的智能系统做一些探讨.我们认为,大数据(Big Data)分析和决策是新一代智慧城市的大脑,是提升智慧城市"智商"的关键. 首先我们看看人类是如何传递信息的. 2000多年前,人类已经开始使用烽火台.间隔几里的众多烽火台,集信息收集.传递为一身,能够及时把外敌入侵的信息,较快地

2016年全球关于大数据分析领域的大事记

2016年2月,红极一时的BI和可视化工具提供商Tableau发布财报,业绩令人大失所望,其市值在一天之内被腰斩.这预示着2016年的BI市场将动荡不安.几个月后,风暴再起,Qlik Technologies的股价暴跌一半多,在2016年6月被Thoma Bravo以大约30亿美元的价格收购. Gartner表示,BI市场已经达到"临界点,需要我们从新的角度来思考".AlphaGo系统,在围棋比赛中战胜人类顶尖棋手.按照英伟达(Nvidia)一位产品经理的话说,这场人机大战堪称AI技术