Gartner解读“数据湖”的误区与风险

Gartner认为,最近围绕着“数据湖”(Data Lake)这个概念的炒作不断升温,正在导致信息管理领域的重大混乱。很多厂商都生成数据湖是抓住大数据机遇的一个重要组成部分,但是厂商们却对是什么构成了数据湖、或者如何从中获得价值没有达成一致。

Gartner研究总监Nick Heudecker表示:“从广义上讲,数据湖被市场营销为一个用于分析各种来源、原始格式的数据的企业数据管理平台。其想法很简单:你将数据以原始格式迁移到数据湖中,而不是放置在专用的数据存储中。这就避免了接收数据的前端成本。一旦数据被放进数据湖中,企业中的所有人都可以使用这些数据进行分析。”

但是,尽管市场炒作表明,整个企业中每个人都将充分利用数据湖,但是这个定位是假设所有这些人都是在数据处理和分析方面具有高超的节能,因为数据湖缺乏语义一致性和对元数据的治理。

Gartner副总裁及著名分析师Andrew White表示:“对于提高数据分析灵活性和可访问性的需求,是数据湖的主要推动力。数据湖可以为企业机构的不同组织提供价值,这一点是千真万确的,但是企业数据管理的定位还没有最终实现。”

数据湖的重点是保存不同的数据,却忽略了如何使用数据以及为什么要使用数据、监管数据、定义数据和确保数据安全。数据湖概念希望解决一老一新两个问题。老问题是,信息孤岛。你可以将不同来源都集中到一个未经管理的数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。

而新问题,则是涉及到大数据举措。大数据项目要求大量各种信息。这些信息如此不同,以至于我们不知道这些信息究竟是什么,以及什么时候收到的,就把它归类到某种类似数据仓库的结构化数据,或者关系型数据库管理系统以便未来使用。

“用数据湖来解决这两个问题无疑在短期内是有利于IT的,因为IT不再需要花费时间去了解如何使用信息——数据只是被倾倒如湖中。不过,从这些数据中获得价值,仍然是企业最终用户的责任。当然,可以运用或者添加相关技术来做到这一点,但是如果没有至少某种信息治理的集合,那么这个数据湖最终将成为多个缺乏相互连接的数据池或者集中在一个地方的多个信息孤岛的集合体。”

因此,数据湖存在着重大风险。最重要的一点,是无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现。从定义上看,数据湖可以接收任何数据,不受监督或管理。没有描述性的元数据,和维护它的机制,数据湖会转变成数据沼泽。如果没有元数据,所有对数据的后续使用都意味着从零开始对数据进行分析。

另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。数据湖核心技术的安全能力仍然处于早期萌芽阶段。如果交给非IT人员的话,这些问题将不会得到解决。

最后,性能方面的因素也不容忽视。数据湖相关的工具和数据接口的性能无法与专用存储系统相匹敌,可以针对优化的专用的基础设施。因此,Gartner建议企业机构专注于上游应用和数据存储库的语义一致性和性能,而不是数据湖中的信息整合。

Heudecker表示:“数据湖通常始于不受监管的数据存储库。满足更广泛受众的需求,这要求具有监管、语义一致性和访问控制的存储库,数据仓库中已经具备这些因素。”

“数据湖的根本问题是,它对信息的用户做了特定的假设。它假设用户了解数据获取的背景,知道如何合并数据和如何协调不同数据来源,在不具备‘先验知识’也就是了解数据集的不完整性,不管结构如何。”

虽然这些假设对于数据科学家这样使用数据的用户来说的确是真实的,但是大多数企业用户缺乏这么高的水准或者缺乏来自运营信息监管方面的支持。开发或者购买这些技能,或者从个人角度获取这种支持,要么是既耗费时间和金钱,要么就是完全不可能的。

“从数据中总是会发现价值的,但你的企业不得不解决的问题是——我们允许甚至是鼓励对各种孤岛或者数据湖中的信息进行一次性、独立的分析吗,或者我们会正式承认这方面的努力,试图维持我们开发的创造价值的技巧吗?如果你的选择是前者,那么很可能数据湖就是具有吸引力的。如果你的决定趋向于后者,那么超越数据湖理念,制定一种更强大的逻辑数据仓库战略就是更有意义的。”

原文发布时间为:2014年07月29日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-07-31 17:58:56

Gartner解读“数据湖”的误区与风险的相关文章

Gartner首次揭露大数据5大误区

在如此多关于大数据的炒作下,IT管理者很难知道该如何挖掘大数据的潜力.Gartner指出关于大数据的五大误区,以帮助IT管理者制定他们的信息基础设施战略. Gartner研究总监Alexander Linden表示:"大数据提供了巨大的机会,但也带来了更大的挑战.海量的数据并没有解决数据固有的问题.IT管理者需要破除各种炒作,根据已知的事实和业务驱动的结果指导行动." 误区1:在采用大数据方面其他人都比我超前 人们对于大数据技术和服务的兴趣达到了前所未有的高度,有73%的受访企业已经投

大数据的五大误区及其破解之道

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;     有些人认为,"大数据"这一词汇不过是企业营销时的大肆炒作.但即使是那些接受大数据概念的人,也需要消除某些大数据误区. 全球领先的信息技术研究和咨询公司Gartner指出,大肆宣传大数据概念,使企业在选择适当的行动方案时,受到更多困扰,但对消除一些仍存在的误区却毫无帮助. 例如,80%的数据是非结构化的,这是错误的:又如高级分析功能只是更复

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够

浅谈大数据现状:误区严重 人才紧缺

文章讲的是浅谈大数据现状:误区严重 人才紧缺,大数据现在很热,企业.个人都在谈论,每个人对大数据有着自己不同的看法和观点,但是笔者通过日常与朋友们聊天,发现很多朋友对大数据仍然具有一些观念上的误区,比如很多人会认为大数据是一个最新的技术,还有一些朋友认为多有数据只服务自己一个人等等,这些问题我们在本期都会与大家讨论. 大数据不是一项最新技术 大数据现在已经融入我们的生活,人们在日常工作办公的时候都会接触到大数据,这些大量数据总会以不同的形式,以及庞大的数量存在和运用,这也导致了很多朋友认为大数据

数据湖:不治理便破产

在当今的数据架构中,治理已成为一个关键的组成部分.没有它,公司可能会失去有意义的商业智能. 当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节. "我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,"Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗. 其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据.相比之下,Colony Brand的数据仓库内只包含

数据湖前途未卜?

大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现.对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的.你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管.数据管理.数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事! 大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务.通过将不同来源的数据集采集到一个集中平台,使用容易扩

还在运行数据孤岛?再不考虑数据湖就真Out啦!

预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求.在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"信息一代"的需求,这对企业来说至关重要.从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理.存储并分析海量数据,拥有变革业务的巨大能量.分析能力正从企业的"愿望清单"中移除,转而成为必需. 在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"

投资数据湖 企业亮起哪些信号灯?

预计未来十年,数字宇宙将以每年约40%的速度增长,这是个惊人的数字,更重要的是,数字宇宙中囊括了绝大多数企业业务的数据需求. 在这种环境下,通过使用数据分析提高竞争力,企业需要有能力满足"信息一代"的需求,这对企业来说至关重要.从帮助预测购买行为到驱动创新项目以增强客户服务或提高生产力,数据湖能整理.存储并分析海量数据,拥有变革业务的巨大能量.分析能力正从企业的"愿望清单"中移除,转而成为必需. 然而,许多组织在早期便遭遇阻力.近半数(49%)的企业知道他们能够从信

实施数据湖的三个关键因素

数据湖的实施可以为分析所有类型的外部和内部数据,提供巨大的灵活性-必需具备三大要素. 格雷普韦恩,德克萨斯州--像任何其他工具或技术一样,数据湖是一种存储库和处理引擎,有它的优点和缺点.它的著名优点之一是,可以在不牺牲数据格式的情况下,摄取数据,为数据科学家提供更大的灵活性. "将数据湖看作为你的疑问开发环境:你不知道你的疑问是什么," Nick Heudecker说,他是Gartner的分析师.数据湖让你探索你所不知道的,从一个疑问引发另一个疑问. 缺点?没有适当的技能.集成和数据治