数据湖:用以分析客户数据的一种更好的方式

“我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会。”The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说。在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的。鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的。”

克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够进行大量的数据分析工作。而如果要借助传统的数据仓库,这项工作几乎是不可能的,因为新的数据的属性大多都是非结构化的、而且其数量庞大,同时其任务的验证和开发过程往往需要花费漫长的时间。

“我们从很多初创公司那里获得了大量的数据,当然我不能要求这些公司专门为我们创建一种专门的数据格式。这将削弱他们的竞争优势,否则他们就会选择别的合作伙伴了。”克勒说。

而为了避免这种潜在的麻烦,两年前,The Weather Company成为了数据湖的早期采用者。这种方法允许该企业能够以一种不可知的方式获取、分析和存储非结构化、半结构化和结构化的数据,该方法比传统的数据仓库提供了更为灵活的存储。

今天的许多数据湖都能够与Apache的Hadoop开源分布式框架进行兼容,以用来存储和处理数据。EMC、IBM、微软、惠普企业和Informatica公司均提供运行Hadoop的数据湖平台。(IBM最近从The Weather Company采购了一些数字资产。)

The Weather Company为其数据湖使用了Amazon S3,以及Apache的Cassandra数据库和Apache的Spark,以便进行实时的数据分析处理,克勒说。借助其数据湖战略,The Weather Company可以接受来自135000个世界各地的爱好者的独立的个人气象站的数据。这些数据信息汇集到数据湖,并与其它诸如雷击和湍流事件的关键数据信息整合,得以能够为该公司的天气数据科学家和业务专家提供相关的洞察见解。

自从该数据湖项目启动以来,The Weather Company已经能够将其温度预测的准确性提高了2度。“而在天气预测领域,2度的意义无疑是相当重大的。”克勒说。

数据湖在哪些领域奏效,哪些领域不起作用

普华永道分析实践的合伙人Oliver Halter表示说,企业所收集的数据量及其速度正在发生变化,而更多数据来源的获得将引导更多的企业考虑采用数据湖。

如果一家企业试图采用数据仓库来完全整合15个不同数据源的数据,那么,在同一时间,“另外50个可用的数据来源的数据,也是有价值的。” Halter说。

咨询公司Hurwitz &Associates的总裁兼首席执行官朱迪斯·赫维茨表示认可这两个不同的服务目的。“当您想要了解您企业的竞争对手,和您企业的蓝色衬衫的销售情况、以及大家都是如何在网上谈论蓝色衬衫时,您就可以抓取一切关于蓝衬衫的数据信息,并将这些数据信息汇集到您企业的数据湖。”她说。

当涉及到数据仓库或数据湖时,“这不是一个成本问题”,她解释说。如果您真的把数据分析与您企业的商业决策结合起来,并同时希望您所依靠的这些数据信息必须最好是干净的和完全可靠的,那么您可能不会选择使用数据湖了。”

因为如果是基于错误的原因、以错误的方式实施了数据湖,其是有可能导致项目失败的。”如果您需要做的是财务报告或一项政府机构的政令文件,那么您所依靠的数据信息必须是尽可能干净的,此时,数据仓库或许才是合适的解决方案。” Halter说。

“因为当您在执行相对原始的数据分析时,采用的是非标准化的数据,就可能会在这过程中产生较多的误解的机会,或根本是匹配了不完善的数据,可能会导致分析结果不够准确精密,也就无法生成准确的财务报表或交易报告了。”她解释说。数据湖中的数据科学更倾向于进行趋势的分析预测和大方向的正确性,而不是提供精确的结果。

Halter建议广大读者可以采用另一种方式来理解数据湖和数据仓库间的差异化关系。“如果您需要一组事实数据,将这些数据结合起来,并且需要对其进行严格的审查——例如,’我们在3月31日的未付的应收账款是3567444556元’——那么您所需要的是数据仓库的方法。”她说。“而如果您所需要的是提供方向性指导——例如,’我们认为,某某市场将增长60%至80%’或’客户有35%的更高的可能性购买A产品而非B产品’——那么此时,数据湖的方法便是更为适合的方案了。”

在大多数情况下,一家企业组织将同时拥有数据仓库和数据湖。“一旦您在数据湖中发现一些对企业组织是有价值的东西,可以您希望重复该情况,那么其就可以被转移到数据仓库,实现规范化和统一。” Halter说。

数据湖的数据并不完美

Synchrony Financial是一家消费者金融服务公司,与Synchrony银行共同提供银行联名信用卡及其他私人金融信贷业务。该公司目前就同时运行着数据仓库和数据湖。尽管该公司的数据湖目前还只是在试点模式中,其首席技术官格雷格·辛普森希望在不久的将来能够让数据湖项目派上重点用途。

辛普森表示说,他所在的公司拥有非常良好的数据财富,大部分来自其他金融来源并汇集到该公司数据湖的数据都是干净且标准规范化的,因为该行业是属于高度管制的行业。该数据湖将有助于帮助该金融服务公司整合社交媒体的数据,以帮助他们更好的研究客户的行为和市场趋势。

“我倾向于获得干净的数据信息,但事实上,我也能够克服那方面的困难。”他说。“实际情况是,我们需要能够进行数据分析,以优化我们目前的业务,并找到相邻的业务。这意味着,我们不会按照正常化的模式创造这个主数据模型和数据集市。”

例如,在分析客户的购物习惯,以制定相应的营销策略的过程中,Synchrony公司并不需要准确地知道顾客在度日差为78的情况下是否要比度日差为79的情况下会购买更多的东西。“我们只需要知道这是一个非常好的一天,消费者有了购物行为就行了。”辛普森说。有了这个信息, Synchrony公司就可以决定客户会希望在什么时候在他们的智能手机上看到商店弹出的报价促销了。

Synchrony公司使用Hadoop作为其框架,并采用SQL进行数据分析,作为其从公司的系统以及外部资源获得数据的接口。“Hadoop已经成为商业化的工具集,可轻松实现部署。”辛普森说。

现在,随着所需数据的增加,数据湖也将随着项目的增多而进一步扩大。然而,最终,数据湖将会有足够的数据,而数据科学家们可以将其作为一个整体进行研究,并找到更多的价值。

例如,项目 A的重点是Synchrony公司将如何定位目标客户,并对消费者实施有针对性的市场营销;而项目 B的重点则是分析呼叫中心的数据,并对其实施优化。“而对于我们甚至没有想到的项目C,其可能会伴随着前两个项目的不断推进而衍生出来;或者是源于数据湖中有了来自其它数据来源的数据。”他说。

辛普森是数据湖这一概念的粉丝,因为其可以帮助该公司避免牵扯到数据仓库的更复杂和长期的任务。“我们的数据仓库通常用于处理高度重复的,且不太频繁的事情,如每月的财务报告。这些都是时间点的问题,我们不会再回到过去了。”他说。“如果您需要花费六周时间去做那些工作,那么您将失去您的业务。”

了解数据湖的环境和元数据

一个令辛普森困扰的问题是:一旦数据被汇集到数据湖之后,其要如何理解数据湖的环境。比如说,如果他收集了来自Facebook的相关帖子的数据,然后想评估这些帖子中关于他们公司的负面情绪的评论,他会想知道这些帖子中,10个中有一个是负面的;或是1000个中有一个是负面的,以及这些负面的帖子都被发布在哪里了。

非营利环保国际保护组织的高级技术总监兼对外关系高级主管Eric Fegraus对于元数据也有类似的的担忧,现在他正打算创建一个数据湖。

目前被孤立在政府机构、大学和非营利组织机构的数据将在数据湖共享。“在传统的包括了林业资源、生物多样性、生态和海洋生态系统的自然资源世界,对于数据存在着巨大的缺乏。”Fegraus表示说。而由于传感器、摄像头和其他物联网设备的广泛普及,使得数据可以被捕获收集并远程传输到一个中央存储库。上述这一状况正在开始发生改变。

Fegraus希望能够尽快开发和实施数据捕获的最佳实践方案,以便使得科学家们所收集的数据信息不会因为他们的资助结束或他们转移到别的项目就消失。“我们正在积极构建一个系统,将使数据存储库能够共享和集成数据。其功能将像一个湖,但具有许多相互连接的节点。”他说。

对于其试点项目,Fegraus打算在其数据湖填充一些初始节点,具有图像、声音及该组织设置在野外的数千台相机所收集的元数据。“这些数据使我们能够理解正在野生动物种群身上发生的事情,为土地管理人员提供了数据驱动的见解,帮助他们了解野生动物的现状和在陆地上生长的趋势。”他解释说。

“我们也可以开始梳理可以推动我们发现相关趋势的数据信息。”Fegraus说。例如,在乌干达的一处野生动物园,在设置好了摄像头之后,工作人员开始注意到金猫的物种的下降。

他解释说:“我们也可以说,有一个强烈的信号,预示了人类的活动可能会影响到了这一特殊种类的猫的生存。”由于该处野生动物公园主要游览主题是大猩猩生态旅游和游客徒步旅行去看大猩猩。他们把金猫数量下降的变化与公园里允许游客徒步参观的范围相联系,从而已经了解了如何更好地管理公园,而不会影响到金猫的生存。

不仅他的团队将能够使用来自他们项目所收集的数据,其他组织也将能够访问相同的数据集。

但是,与辛普森一样,Fegraus也同样感觉到元数据的处理是相当棘手的。在参与组织之间规定数据使用的协议最有可能会使用元数据来维护数据的完整性。例如,科学家在收集拍照过程中,是否使用诱饵或相机的闪光灯是否打开是非常必要的信息,其可能会影响结果,但保持原始数据可能是相当具有挑战性的。

处理“无底洞”的概念

这方面的另一个障碍是:需要收集哪些数据信息,同时需要将这些数据信息保存多久。“您可以收集如此众多的数据信息,其会使您耗尽存储空间,而且这也是有成本代价的。”Fegraus说。因此,数据湖中所存储的应该是那些项目驱动的数据,而不是任何可用的数据。

虽然数据湖似乎是深不见底的,但其实并不是的。据市场调研机构Gartner公司的数据管理策略研究总监Svetlana Sicular介绍说。“人们总是对于可能会失去一些东西感到紧张,所以他们会尽一切可能的收集一切可以获得的数据信息。然后,他们又会变得非常紧张,因为他们需要展示出迅速增长的数据湖的价值。但价值是通过数据分析而获得的。”她说。而那些仅仅只是把数据湖视为“只写”的公司也会失败;换句话说,人们需要读取和写入信息,以便充分利用这些数据信息。

“有一个普遍存在的概念,即数据仓库将很快会消失,您企业将会在数据湖中执行所有的一切数据分析处理工作。” Sicular说。“这是一个谬误。为什么要采用一些并非专门为其设计的技术来执行一些工作任务呢?”她补充说,只有当以正确的方式被使用时,数据湖才是唯一符合成本效益的。

她提醒企业组织要更仔细地审视自己的数据仓库,并要在开始部署采用数据湖的路线之前,确保其到底是不是正确的工具。很多人对于数据仓库的理解还停留在五年前,Sicular说,但是现在的很多数据仓库均已经具备处理非结构化数据的能力了。此外,她还建议企业必须考虑他们要分析的数据中有多少数据其实是非结构化的。

保持企业组织的竞争优势

那么,企业组织到底应该在何时使用数据湖呢?”如果您企业组织需要分析各种类型的数据、而这些数据存储在数据仓库中又不会有多大意义时,便可采用数据湖。” Sicular说。另一种应用案例是:“如果花时间去清洗数据会使您企业失去竞争优势的话,那么,数据湖将会是一个的完美使用案例。”她补充说。

而这正是推动国际卡车公司(International Trucks)使用数据湖的基本原因了。Navistar控股的这家卡车制造商的物联网分析和机器学习负责人Andy Minteer表示说,该公司所收集到的进入其基于Hadoop的数据湖的数据流使得改公司保持了始终对于其竞争对手领先一步。

国际卡车公司有超过160000辆汽车参加了该公司的OnCommand连接项目计划,该项目计划使用来自安装在车辆上的传感器的数据流,包括该公司的卡车和校车,每隔15到20秒来评估一次车队的运输健康状况。

例如,通过分析数据湖的原始数据,该公司能够帮助一只校车车队的经理确定电池的阈值电压,这样就使得巴士不回在寒冷的接送孩子的途中出现故障,让孩子们滞留在外。

他的团队还开发了一种算法,通过结合超过40000辆车辆的组合类型和故障代码(非结构化数据)来梳理数据信息,以协助更小的车队制定车辆的预防性维护时间表。 Minteer研究了这些公路车队的原始数据,其往往会有较高的行驶里程数,并发现可能出现的问题,这样他们就可以及时安排车辆的维修,避免出现车辆的停运。

他说:“这是一场获取价值和机会的竞争,而借助数据湖工具,我们现在可以很容易且成本有效的参与市场竞争了。”他说。现在,我们知道,数据的可用要比其以一种特定的格式存储在某个地方更为重要。”

本文转自d1net(转载)

时间: 2025-01-20 23:58:42

数据湖:用以分析客户数据的一种更好的方式的相关文章

数据湖恶化成了数据沼泽?你一定没有注意这3点

多年来,在Apache Hadoop等技术的支持下,组织一直在寻求构建数据湖--企业范围的数据管理平台,允许以原生格式存储所有数据.数据湖可通过提供给一个单一的数据存储库来打破信息孤岛问题,整个组织都可以使用从业务分析到数据挖掘的所有东西.原始和不受约束,数据湖被认为是一个包罗万象的大数据. 但是,商业智能(BI)软件专家,金字塔分析公司的首席技术官Avi Perez说,他看到许多客户的数据湖正在恶化为数据沼泽--完全无法接近终端用户的大量数据存储库. "数据库真的很贵."Perez说

新联邦业务数据湖为颠覆大数据应用铺路

文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利用大数据的新世界,从而扫清通向新洞察和颠覆性差异化道路的障碍. 方案可在短至七天内实施,联邦业务数据湖可极大简化构建一个数据湖所需的大量复杂任务,是专为企业需要的速度.自服务和可扩展性而设计,让组织能够通过使用大数据分析,开始更好地进行业务决策.作为一个来自EMC联邦的融合解决方案, 联邦业务数据湖

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

微软新的数据中心旨在让客户数据远离美国的窥探

微软已经开始为两家新的德国数据中心提供Azure云服务,这让美国当局以及其他的用户请求访问数据非常困难. 微软新的数据中心旨在让客户数据远离美国的窥探 Microsoft Cloud Germany和该公司现有的欧洲云服务大相径庭:客户存储在数据中心之中的数据处于"数据受托人"的控制之下--T-Systems International,这是一家德国电信(Deutsche Telekom)旗下的独立子公司. 而微软的高管云和企业集团副总裁Takeshi Numoto将新的数据中心形容为

英特尔“数据经济学”借以分析大数据

众所周知,英特尔是计算机芯片行业的龙头老大,但是走出了硬件领域,英特尔在数据领域却没有多少建树,对数据的依赖程度也不及http://www.aliyun.com/zixun/aggregation/1560.html">Facebook和Google,这不英特尔希望借助现在的大数据风潮"把人们的数据还给人们,让他们自己决定数据的作用". 英特尔公司的英特尔实验室近日提出了"数据经济"的观点,它希望消费者能够有权利获得私人信息所带来的最大化的价值,比如

数据湖:大数据游泳的安全方式?

自从Pentaho公司首席技术官詹姆斯•狄克逊创造了"数据湖"这个词,至今已有五年多的时间.他当时提出这个建议,"如果你认为数据集市是一个经过清洗,方便消费的瓶装水商店的'数据湖',那么数据湖则是一个更自然状态的水体."这个比喻很简单.但根据专家的经验,许多最终用户对这个的概念还有很多困惑.在这篇文章中,专家想澄清数据池是什么,组织是否会考虑使用数据湖,以及他们使用数据湖所面临的挑战,并概述了一些支持数据湖软件工具的发展. 数据湖提供了一个处理大数据的方法.数据湖结

Teradata扩展数据湖搭建能力

全球领先的大数据分析服务供应商Teradata天睿公司(Teradata Corporation,纽交所:TDC)宣布旗下Think Big公司运用Apache Spark 扩展数据湖与管理服务业务.Think Big公司是Teradata天睿公司旗下全球化咨询公司,拥有领先的Apache Spark及其它大数据技术部署能力.Spark是一套开源集群计算平台,可用于产品推荐.预测分析.传感器数据分析.图形分析等多个领域. 目前,客户可在搭载"通用硬件"的一般Hadoop环境中部署云端A

创建企业级品质数据湖 Spark没那么简单

随着Spark受到越来越多的关注,许多企业正在尽力跟上这一开源平台快节奏的变化和发布频率.数据仓库研究院(TDWI)数据管理研究负责人Philip Russom博士表示:"许多企业正在尝试部署Apache Spark,通常会结合数据湖使用,希望能发挥其在流数据.查询和分析上的优势.但用户很快意识到,Spark并不容易使用,而且数据湖所需规划与设计超出用户想象.在这种情况下,用户需要求助于外部顾问和管理服务提供商,他们需要具备为各种不同类型的客户顺利部署Apache Spark和数据湖的可靠经验.

企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展. 最近,数据湖已经开始在IT行业涌现.数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力. 例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入"操作数据存储"的日志. 但在当今的行业中,数据湖似乎至少有两个定义.一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施.另