实施数据湖的三个关键因素

数据湖的实施可以为分析所有类型的外部和内部数据,提供巨大的灵活性—必需具备三大要素。

格雷普韦恩,德克萨斯州——像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点。它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性。

“将数据湖看作为你的疑问开发环境:你不知道你的疑问是什么,” Nick Heudecker说,他是Gartner的分析师。数据湖让你探索你所不知道的,从一个疑问引发另一个疑问。

缺点?没有适当的技能、集成和数据治理,数据湖的实施会迅速成为数据管理的噩梦。在最近举行的Gartner Business Intelligence and Analytics Summit 上,Heudecker在他的演讲中列举了健全的数据湖的三个特征。

技能

数据科学家是任何数据湖中的必要因素。“他们拥有较高的领域理解力,较低的IT技能,但是你雇佣他们是因为数据分析技能,”Heudecker说。

但是数据科学家并不是实施数据湖所需的唯一技能。Heudecker还指出:

数据工程师,运用数据科学家的研究发现,并与业务部门紧密合作;

业务专家,提供上下文;

软件工程师,专注于数据湖实施的具体细节

平民数据科学家,并不是必需的,但可以作为数据科学家的补充,即使他们的技能不完全成熟,能够完全胜任这个职能。

“数据科学是一项团队任务,”Heudecker说。“如果你想要一个成功的数据湖,你必须拥有一个成功的团队。”

集成

IT部门需要考虑如何把数据——从内部,以及越来越多的外部来源——汇总到数据湖中,这就意味着将湖与IT基础设施的其他部分相集成。

这就要求正确的数据初始分类和索引,以及数据安全,Heudecker说。此外,CIO还不得不考虑分析技术。一些数据湖技术——比如Hadoop——可能“不支持高并发性和多租户,”Heudecker说。“他们可能不适合你选择的商业智能平台或控制面板工具。”

Heudecker认为,数据分析也可以在数据湖外部产生,比如使用MySQL,SQL Server或MongoDB数据库。

数据治理和数据质量

数据治理和数据质量是确保分析正确的关键,但它们的标准和应用与传统环境中有所差别。太多可能会妨碍数据湖的分析发现;太少可能会给企业带来麻烦。

为了找到合适的界限,Heudecker推荐IT部门考虑数据基数,或数据与其他数据之间的关联,以及数据沿袭,或者“你是如何处理数据的,数据从何而来,谁改动了它,为什么,”他说。“我认为你可以放弃其他元素的治理,至少当你处于数据湖环境中。”

Heudecker认为数据质量是数据湖中的“重大挑战”。他说,IT部门应该创建目录和“社交化”数据集,将其作为员工之间的一种沟通方式,它们的相关数据质量和它们的用处。

在实施数据湖之前,IT部门应该考虑业务的目标,数据湖将如何帮助实现这些目标,以及是否拥有必要的技能。

“你不必将数百万美元投资到这个基础设施。你可以从云中开始,你可以从简便和免费的工具开始,如果你今天没有数据科学团队,你可以在实施数据湖的同时打造这一团队,”Heudecker说。

本文转自d1net(转载)

时间: 2024-07-31 17:59:03

实施数据湖的三个关键因素的相关文章

整合大数据价值最大化的三个关键因素

本文首发于微信公众号:数据观.文章内容属作者个人观点,不代表和讯网立场.投资者据此操作,风险请自担. 在过去的几年里,人们从知道大数据的概念,发展到一些组织能够真正实施一些大数据项目.然而,在一些组织的数据中心团队负责实施这些业务驱动的举措之后,现在才开始认识到实现真正大数据集成的复杂性和深度. 大数据通过人们生活,工作平台,应用程序,以及设备提供了多种格式的大量的数据.大量的结构化和非结构化的内容往往使用户非常难以访问和分析所需的信息. 现代数据中心往往是一个复杂的系统,相互连接的服务器和设备

数据湖:不治理便破产

在当今的数据架构中,治理已成为一个关键的组成部分.没有它,公司可能会失去有意义的商业智能. 当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节. "我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,"Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗. 其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据.相比之下,Colony Brand的数据仓库内只包含

Isilon三款新品构建数据湖2.0策略

公司的边缘数据一直是被忽略的存在,据ESG的报告显示,将近70%的公司存在边缘办公室,并且边缘数据达到了10PB.如何将这些边缘数据管理起来成为一个挑战,因为边缘数据在存储上存在一定的技术壁垒,Isilon则发布3款新产品IsilonSD Edge.新一代IsilonOneFS操作系统.新一代IsilonCloudPool来拓展数据湖策略,打通边缘.核心和云. 向数据湖2.0扩展 Isilon自2008年进入中国,在2010年被EMC收购后,借助其平台Isilon迎来了业务的快速增长,平均年复合

企业在数据湖实施之前需要试水

企业在实施大规模数据湖之前,应该从小规模开始,并将该技术作为对现有分析系统的扩展. 最近,数据湖已经开始在IT行业涌现.数据湖是与附加数据管理系统相结合的数据存储,而附加数据管理系统提供关于数据的分析,作为数据清理过程的一部分,通常是从其他分析环境(例如数据仓库或数据集市)剥离的能力. 例如,数据仓库的提取,转换和加载预处理消除了告诉系统何时到达或插入"操作数据存储"的日志. 但在当今的行业中,数据湖似乎至少有两个定义.一个来自存储公司的是,数据湖是允许元数据存储的磁盘存储基础设施.另

新联邦业务数据湖为颠覆大数据应用铺路

文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利用大数据的新世界,从而扫清通向新洞察和颠覆性差异化道路的障碍. 方案可在短至七天内实施,联邦业务数据湖可极大简化构建一个数据湖所需的大量复杂任务,是专为企业需要的速度.自服务和可扩展性而设计,让组织能够通过使用大数据分析,开始更好地进行业务决策.作为一个来自EMC联邦的融合解决方案, 联邦业务数据湖

拥抱开源技术的前提——认识数据湖

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够

360度解析企业智能数据湖平台

本文根据DBAplus社群第86期线上分享整理而成. 讲师介绍  张扬 DaoCloud售前技术支持     负责面向企业用户的DaoCloud应用云平台整体解决方案交付. 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作.个人公众号:小张烤茄.   主题简介: 1.数据湖概念解析 2.数据湖和数据仓库的区别 3.现代化数据架构 4.DCE智能数据湖平台   一.数据湖概念  数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章<Big D