实施数据湖泊之前请先“试水”

现今,数据湖泊在IT行业掀起了波澜。数据湖泊是将数据存储与数据管理关联,提供关于数据的分析功能——这种功能通常是其他分析系统的独立功能,如数据仓库或数据集市,作为数据梳理流程的一部分。

例如,数据仓库的提取、转化与加载预处理器将消费日志,这些日志记录了某个系统到达或插入某“操作数据存储”的时间。

但现今产业中,数据湖泊似乎至少有两个定义。一是源于存储公司,认为数据湖泊是磁盘存储基础设施,用于源数据的存储。另一个,主要由市场驱动,混合许多通常未混合的数据。根据我的定义,没有产商在销售全扩展的数据湖泊——相反,人们利用Hadoop来混合数据并自主研发的工具来访问数据。

作为初始供应商向现实世界实验抛出的炒作课题,用户发现数据中心集市的最佳实践并不适用于数据湖泊。为避免早期用户的错误,需要专注于数据湖泊的温和实现,而不是超大规模。

以下是在数据湖泊工作中的最佳实践。

请记住数据湖泊适用于探索

数据湖泊实现应该是实现企业扩展某个已存在分析的探索方式。数据湖泊中增加的数据类型来大部分来自于实时数据——例如,用户事务日志——实时分析系统一般不会提供长周期的分析功能。大多数现有的分析工具不足以提供应用程序行为的真实画像。数据仓库,“纯”Hadoop和其他数据管理方案可能导致重要数据丢失。

大数据分析系统提供商Pentaho公司首席技术官James Dixon在自己的博客上举了个例子:数据仓库这样的系统无法获得用户在购买流程中的每一步操作,但事务日志里有。类似购买流程这样的设计对某些数据架构师来说看似简单,但每步骤都可能有数分钟甚至几小时的滞后。

通过发现流程中的滞后,用户可以开始部署数据湖泊来绘制用户画像、购买相关的事务。探索型的分析很重要,也会影响到企业整体的分析能力,因为目前还不清楚在更深入分析客户日志时间戳后,会不会有什么新发现。

数据集市、数据湖泊和数据仓库之间的区别?

数据集市是数据仓库的变体。数据仓库存储了跨越整个组织、周期较长的数据报告与分析。多个数据集市大致相当于数据仓库,通常服务于分公司的各自IT环境中。可以将多个数据集市并入一个数据仓库,也可以是松耦合的数据集市。

整合是数据湖泊实施的关键

完全整合数据湖泊与企业的其他数据架构十分重要,包括数据治理与主数据管理。了解哪些数据类型对数据仓库或数据集市重要,或者那些原始表单中的数据是正确与一致的。实施数据治理实践,避免分析有缺陷的数据。

数据湖泊要看长远

数据湖泊拥有潜力。但在找不到比这个更好的长期数据分析方案,无法获得更多有价值的信息之前,数据湖泊也可能只是个时髦用语。

Dixon关于时间序列与间距问题分析的数据仓库案例,只是在没有考虑“坏”数据的情况下,通过简单统计分析告诉我们一些信息。由于数据湖泊实施可能发现过去分析中隐藏的关键“指数”,任何企业都值得一试。从长远来看,还是需要实验与平衡数据湖泊与整体信息架构之间关系。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-07-31 17:59:14

实施数据湖泊之前请先“试水”的相关文章

企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展. 最近,数据湖已经开始在IT行业涌现.数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力. 例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入"操作数据存储"的日志. 但在当今的行业中,数据湖似乎至少有两个定义.一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施.另

试水移动医疗,英特尔要用大数据追踪疾病

摘要: Maker Voice是为关注新硬件的朋友们准备的一个栏目,初期的形态是每天一篇文章,梳理总结一天下来新硬件行业的精华内容,可能是有意思的产品,也可能是引人思考的观点,目标是让 Maker Voice是为关注新硬件的朋友们准备的一个栏目,初期的形态是每天一篇文章,梳理总结一天下来新硬件行业的精华内容,可能是有意思的产品,也可能是引人思考的观点,目标是让朋友们能用最短时间在这里遍览真正值得关注的内容.So,enjoy! 试水移动医疗,英特尔要用大数据追踪疾病 周三,英特尔宣布将同 Mich

试水Nutanix超融合架构,中通信息经验分享

今年8月中通信息服务有限公司采用Nutanix超融合架构对其云数据中心进行了转型升级,这无疑是一个有益的尝试. 选准切入点 中通信息的业务覆盖互联网语音增值.电信代营代维.通信设备与器材销售.通信工程建设与系统集成等,形成了以增值业务.通信维护.物流配送三大业务为核心的整体架构.2013年,中通信息尝试推出了中通云公有云平台.然而,中通信息很快意识到在全新的云时代,看清市场形态,找准自身优势,快速落实部署尤为重要. 中通信息数据中心运营部经理黄志清指出, "云计算是一个涉及面非常广的领域,技术更

网店“巨无霸”前传实体名牌纷纷试水

■专题撰文 信息时报记者 邹捷 马向新 实习生 林如珍 王瑶 王甜甜 杜嘉仪 邓文娜 卢秋红 两个80后广州 卖家合作的淘宝鞋店,在短短半年内,不仅创立了纯网络销售的原创品牌,最近一个月的销量达到了25000多双鞋,还凭一店之力救活了佛山一家因金融海啸濒临倒闭的鞋厂.由一家有200人的鞋厂专门供货:从监管. 客服.打单.包装,甚至还有危机公关的一条龙作业:从创店之初就注册商标,到最高每天砸10万元做广告--这些颇具规模的公司化运作,可以说颠覆了大家对网店小打小闹.纯属转手倒卖.真假难分良莠不齐的

微信试水支付功能 欲超越支付宝?

中介交易 SEO诊断 淘宝客 云主机 技术大厅 相信看了新闻的朋友都知道,在昨日(2013.6.17),微信已经针对一些公众账号开通了"在线支付",与此同时,腾讯公司将旗下的财付通引入微信公众账户,很多网民在猜疑,难道腾讯利用微信试水支付功能,引入财付通,欲超越支付宝吗? 微信试水支付功能,大家怎么看? 相关专家提出,微信试水支付功能事实上是一种商业化的转变,同样是一种预示,未来的微信的发展会转变成电商行业,为移动互联网商业铺路,对于移动互联网的发展起到不可忽视的作用. 更有一些网友朋

试水O2O 的阵营继续壮大

试水O2O 的阵营继续壮大.上市公司宜华木业今日发布公告称,公司近日同广东腾南网络信息科技有限公司(下称"广东腾南")签订<战略合作协议>,双方将联手推进宜华家居微信 应用平台建设. 据悉,广东腾南为腾讯控股有限公司与南方报业传媒集团组建的合资公司,在社交互动平台化运营,提供专业化的网络营销解决方案,搭建精准.互动.立体的品牌化网络营销平台方面,具有强大的研发运营推广能力. 细查公告,双方的合作内容主要包括两个方面: 一是双方联手建设宜华家居微信应用平台,广东腾南将授权专业

网络巨头试水众筹,智能硬件创业新契机?

随着各大互联网巨头纷纷加入众筹阵营,智能硬件成为热门的众筹项目.在最近京东"凑份子"首期上线的12个项目中,我们可以看到智能硬件项目占了一半以上,拥有规模.平台和渠道优势的电商的介入,给众筹领域的创业者带来的绝不仅仅是滚滚的资金,更重要的是每一位参与众筹的网民背后的资源. 互联网巨头纷纷试水众筹 在诸多互联网巨头中,京东并不是第一个"试水"众筹的公司.在此之前,百度.阿里巴巴也早已宣布上线众筹平台.3月26日,阿里巴巴数字娱乐事业群发布了"娱乐宝"

平安保险推游戏道具保险 首次试水不图盈利

"装备一夜之间全没了,日子回到解放前."某游戏玩家在论坛里抱怨.就在这个网络游戏里,每月有数亿的虚拟财产进行交易,盗号事故也频频发生.针对装备被盗现象,平安产险近日推出专门的游戏道具保险.据悉,这是业内首款面向个人客户销售的虚拟财产保险产品.不过,关于虚拟财产赔付依然没有可靠的游戏规则. "游戏装备"最高赔付3万 6月8日,网络游戏的资深玩家朱女士在深圳签了一份保单,为她的游戏装备买下保险. 这是平安产险推出的游戏道具保险,也是国内首款面向个人客户销售的虚拟财产保险

Nike试水O2O:以运动之名先行

在互联网已经越来越深入地渗透到我们的生活中时,越来越多的行业受互联网影响也由浅入深.比如买房/租房从在网上查信息到随时随地在移动终端和中介联系.购买理财产品只需在智能终端上点击即可完成--而今,这把火终于烧到运动品牌领域. 以往,运动品牌与互联网的最大接触只是在网络渠道进行销售.而今,随着运动品牌严峻的销售形势,如何与互联网更多的触电以推动市场的复苏,是个严峻的挑战.在这方面,30年来一直以技术创新为荣的耐克似乎给出了一条解决之道.耐克在中国以运动之名先行,大玩数字化战略,不断试水O2O,从而打