企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展。

最近,数据湖已经开始在IT行业涌现。数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力。

例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入“操作数据存储”的日志。

但在当今的行业中,数据湖似乎至少有两个定义。一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施。另一个主要是营销驱动的,是混合通常不混合的多个数据存储的一个湖。根据专家的定义,没有销售全面数据湖的供应商,而是人们使用Hadoop和本地工具访问数据来将它们拼凑在一起。

由于最初的供应商炒作让位于真实世界的实验,用户发现数据市场的最佳实践并不适用于数据湖。为了避免早期用户的错误,适当地解决数据湖的实施,而不是大规模。以下是一些在处理数据湖时证明有用的最佳实践。

记住,数据湖是探索性的

数据湖实施应该允许组织以特别的和探索的方式扩展现有的分析。

从当前分析系统不会及时获取的高度数据的核心(例如客户事务日志)中增长数据湖中的数据类型。大多数现有的分析不足以真实了解应用程序的行为。数据仓库和Hadoop等数据管理方案失去了重要的数据。

大数据分析系统提供商Pentaho公司的首席技术官James Dixon在博客上例举了一个例子:数据仓库等系统并不捕获客户购买过程中的每一步,而是事务日志。这样的购买过程的设计对于典型的数据架构师似乎是直接的,但是在每个步骤中可能有数分钟甚至数小时的滞后。

通过发现流程中的滞后,用户可以开始与客户面对的数据湖实现,购买相关的交易。分析对企业的整体分析工作具有探索性和重要性,因为一旦用户更彻底地分析客户日志时间戳,还不清楚会发现什么。

数据集市,湖泊和仓库之间有什么区别?

数据集市是数据仓库的变体。数据仓库存储来自整个组织的较旧的数据,用于报告和分析。多个数据集市大致相当于数据仓库,通常在自己的IT环境中为子公司服务。用户可以有多个数据集市进入数据仓库,或者只是松散耦合的数据集市。

集成是实现数据湖的关键

将数据湖与其他企业数据架构(包括数据治理和主要数据管理)完全集成也很重要。了解哪些数据类型对数据仓库或数据集市很重要,以及原始数据是否正确和一致。实施数据治理实践,以避免分析有缺陷的数据。

数据湖的长期发展

数据湖有潜力。但是,除非人们能够更好地了解自己可以长期提供什么,否则这很可能只是一个时尚,除非他们的利益比迄今为止具体显示的更广泛。

Dixon在并入时序和间距时的数据仓库问题的例子只是当今的分析继续依赖简单统计数据,而不考虑什么“坏”数据可以告诉人们的一个实例。由于数据湖实施可以发掘分析中的关键“陷阱”,因此它值得任何企业进行探索。然而,从长远来看,这需要实验和仔细平衡数据湖和整体信息架构。

本文作者:佚名

来源:51CTO

时间: 2024-07-31 17:59:08

企业在数据湖实施之前需要试水的相关文章

实施数据湖泊之前请先“试水”

现今,数据湖泊在IT行业掀起了波澜.数据湖泊是将数据存储与数据管理关联,提供关于数据的分析功能--这种功能通常是其他分析系统的独立功能,如数据仓库或数据集市,作为数据梳理流程的一部分. 例如,数据仓库的提取.转化与加载预处理器将消费日志,这些日志记录了某个系统到达或插入某"操作数据存储"的时间. 但现今产业中,数据湖泊似乎至少有两个定义.一是源于存储公司,认为数据湖泊是磁盘存储基础设施,用于源数据的存储.另一个,主要由市场驱动,混合许多通常未混合的数据.根据我的定义,没有产商在销售全扩

360度解析企业智能数据湖平台

本文根据DBAplus社群第86期线上分享整理而成. 讲师介绍  张扬 DaoCloud售前技术支持     负责面向企业用户的DaoCloud应用云平台整体解决方案交付. 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作.个人公众号:小张烤茄.   主题简介: 1.数据湖概念解析 2.数据湖和数据仓库的区别 3.现代化数据架构 4.DCE智能数据湖平台   一.数据湖概念  数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章<Big D

实施数据湖的三个关键因素

数据湖的实施可以为分析所有类型的外部和内部数据,提供巨大的灵活性-必需具备三大要素. 格雷普韦恩,德克萨斯州--像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点.它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性. "将数据湖看作为你的疑问开发环境:你不知道你的疑问是什么," Nick Heudecker说,他是Gartner的分析师.数据湖让你探索你所不知道的,从一个疑问引发另一个疑问. 缺点?没有适当的技能.集成和数据治

投资数据湖 企业亮起哪些信号灯?

预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求. 在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"信息一代"的需求,这对企业来说至关重要.从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理.存储并分析海量数据,拥有变革业务的巨大能量.分析能力正从企业的"愿望清单"中移除,转而成为必需. 然而,许多组织在早期便遭遇阻力.近半数(49%)的企业知道他们能够从信

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够

数据湖:大数据游泳的安全方式?

自从Pentaho公司首席技术官詹姆斯•狄克逊创造了"数据湖"这个词,至今已有五年多的时间.他当时提出这个建议,"如果你认为数据集市是一个经过清洗,方便消费的瓶装水商店的'数据湖',那么数据湖则是一个更自然状态的水体."这个比喻很简单.但根据专家的经验,许多最终用户对这个的概念还有很多困惑.在这篇文章中,专家想澄清数据池是什么,组织是否会考虑使用数据湖,以及他们使用数据湖所面临的挑战,并概述了一些支持数据湖软件工具的发展. 数据湖提供了一个处理大数据的方法.数据湖结

中国企业私有云“试水期”已过,OpenStack领域将有哪三大创业红利?

摘要:中秋节前,国内一家OpenStack公司在一天之内赢得五个私有云大单,中国的私有云市场正在迎来拐点,而这背后还有新三大创业红利. EasyStack 创始人兼 CEO 陈喜伦 "昨天晚上九点半离开办公室的时候,当天还只中了三个单子,一走到停车场就收到又中了两单的消息,赶紧回公司发红包." 国内 OpenStack 公司 EasyStack 创始人兼 CEO 陈喜伦在中秋节前一天见到记者时很兴奋.据这位创业者的经验,"同比去年,今年下半年用户对 OpenStack 的需求

还在运行数据孤岛?再不考虑数据湖就真Out啦!

预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求.在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"信息一代"的需求,这对企业来说至关重要.从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理.存储并分析海量数据,拥有变革业务的巨大能量.分析能力正从企业的"愿望清单"中移除,转而成为必需. 在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"

百度团购悄然上线,试水O2O

近日,百度首次上线二级域名为t.baidu.com的团购网站"百度团购".  团购在经历了大洗牌后,百度逆势试水,意欲为何?昨日,百度一位内部人士告诉新快报记者,目前对于公司自建团购一事不方便发表评论,如果公司确定要做团购业务,会对外发布相关信息.另有分析指,这是百度为了发力O2O所做的布局.  团购应为O2O布局  记者登录百度团购了解到,目前该独立团购网站主要分为餐饮美食.丽人.休闲娱乐.生活服务.酒店旅游几个频道,主要经营本地生活服务类商品,仅开通北京市四个地区的服务,产品仅有7