符合混合数据结构的数据湖

随着Hadoop的数据湖获得更多的定义和部署,现在开始看起来将与现有的数据仓库技术共存。而混合型数据架构这样一种观点出现在加利福尼亚州圣迭戈召开的2016企业数据世界会议上。

“这不是一个有或没有的事情,而是一个共同存在的事情。”纽约咨询公司CasertaConcepts公司总裁兼首席执行官乔治·卡塞塔在2016年EDW大会上表示,“企业的数据仓库不会消失。即使当我们正在关注Hadoop和Spark和其他所有闪亮的新事物,它仍然存在。”

但是数据湖在大数据科学和分析应用中找到了用武之地。乔治·卡塞塔表示,基于Hadoop的数据湖通常首先要处理大量和快速到达的大量非结构化数据。卡塞塔和其他专家表示,数据湖是大数据的趋势,将为数据专业人员熟悉实践的重要组成部分带来改变。

“我们采数据仓库创建了第一个数据模型,但这已经发生了变化,“卡塞塔说。随着数据湖的采用,这些模型都已落后。“我们不这样做,马上就落后了。”他说。

分析和应用

其中的一个原因是数据湖与实时数据流关联。随着分析使得业务应用更加紧密,并成为了实时决策的一部分,数据需要尽快地创建和访问。卡塞塔说,这也使得它与数据仓库的工作有很大的不同,这将继续成为必要业务报告的基础。

这个观点是由零售数据安全和电子商务服务提供商FirstData公司支付处理数据管理总监汤姆·普莱斯所分享的,他看到数据湖和数据仓库不同的应用,以及对数据结构的需要。

“数据仓库是专为缓慢变化的数据设计的,每天、每周和每月的汇总,以及已知的、结构化的数据”。普莱斯说,“而另一方面,数据湖是为快速变化的数据设计的,而数据湖可以告诉你一分钟前或五分钟前发生了什么事。”

像卡塞塔一样,普莱斯看到了从数据湖进入数据仓库的非结构化数据的选择性汇总的区别。

数据水库

作为数据湖泊的发展,作为处理简单和未分化的数据的应用可能会接近尾声。卡塞塔和普莱斯都看到在数据湖有着不同程度的数据治理应用于不同层次的数据。

这些部门主要是为用户提供先进和技能和分析。总部在亚特兰大的FirstData公司数据的消费者包括业务分析师和数据科学家,但也有一些产品创新和产品优化专家。其应用范围从商业报告到预防欺诈的案例。

普莱斯说,他其实更喜欢将长期的数据湖称为数据水库这样的术语。在他看来,数据水库可以传达摄入的数据将被处理的想法。

“数据湖本身只是一个用户不理解的原始数据的集合,它可能无法管理,无法验证用户。”普莱斯说,“有了数据水库,这些数据能够得到很好地治理,充分理解以及良好的管理。而且,你其实可以采用数据做更有价值的事情。”

长期沙箱

数据湖作为一个术语,远未受到普遍欢迎。总部在明尼阿波利斯一家保险和投资管理企业Thrivent金融公司的数据和商业智能交付高级架构师卢米尼察·沃尔默表示,并不喜欢这个术语。她倾向于共同发展的长期沙箱,因为很多数据湖的使用是实验性的。

不过,在数据仓库的前景会议上,她告诉与会者关注他们目前的数据仓库,以及他们的组织将如何使用未来的工具,包括NoSQL数据库和预测性分析软件的前景。她说,Hadoop已经在许多组织中占据了数据结构中的位置。

与其他人一样,沃尔默说,数据分析用户的一个新的频谱正在形成。当企业数据仓库是唯一的游戏时,事情是不同的,她说,这将影响到向前发展的数据管理团队的方式。

“必须要有一些人支持目前的系统和一些人做一些研究。”沃尔默说,“这可能使我们做事的方式发生变化。”

本文转自d1net(转载)

时间: 2024-10-07 13:09:37

符合混合数据结构的数据湖的相关文章

360度解析企业智能数据湖平台

本文根据DBAplus社群第86期线上分享整理而成. 讲师介绍  张扬 DaoCloud售前技术支持     负责面向企业用户的DaoCloud应用云平台整体解决方案交付. 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作.个人公众号:小张烤茄.   主题简介: 1.数据湖概念解析 2.数据湖和数据仓库的区别 3.现代化数据架构 4.DCE智能数据湖平台   一.数据湖概念  数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章<Big D

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够

新联邦业务数据湖为颠覆大数据应用铺路

文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利用大数据的新世界,从而扫清通向新洞察和颠覆性差异化道路的障碍. 方案可在短至七天内实施,联邦业务数据湖可极大简化构建一个数据湖所需的大量复杂任务,是专为企业需要的速度.自服务和可扩展性而设计,让组织能够通过使用大数据分析,开始更好地进行业务决策.作为一个来自EMC联邦的融合解决方案, 联邦业务数据湖

智能数据湖势在必行

由大数据触发的数据驱动的做法是一种最好的理解.如今,各个组织正在各种数据结构,格式和分布式地理数据源位置等方面进行竞争,并在时间框架和数量上超过了现有系统的能力. 以往人们关注了社交,移动和云平台的应用与发展.同样重要的是,在大数据时代之后涌现出的几种辅助技术得到了蓬勃发展,由此产生的基础架构,架构,以及IT挑战表明,整个数据环境发生了模式转变,这种变化是由改变业务进行方式的力量的开始决定的. 由于这种转变的迅速性和其需求的即时性,许多组织希望在市场上寻找最好的解决方案,并有大量的点解决方案来解

Isilon三款新品构建数据湖2.0策略

公司的边缘数据一直是被忽略的存在,据ESG的报告显示,将近70%的公司存在边缘办公室,并且边缘数据达到了10PB.如何将这些边缘数据管理起来成为一个挑战,因为边缘数据在存储上存在一定的技术壁垒,Isilon则发布3款新产品IsilonSD Edge.新一代IsilonOneFS操作系统.新一代IsilonCloudPool来拓展数据湖策略,打通边缘.核心和云. 向数据湖2.0扩展 Isilon自2008年进入中国,在2010年被EMC收购后,借助其平台Isilon迎来了业务的快速增长,平均年复合

探讨企业数据架构战略和数据湖的可能性和必要性

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配. 现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战.首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配.其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成.CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性. 然 而,大多数企业的数据架构,随着时间的推移,通常在缺

数据湖:不治理便破产

在当今的数据架构中,治理已成为一个关键的组成部分.没有它,公司可能会失去有意义的商业智能. 当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节. "我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,"Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗. 其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据.相比之下,Colony Brand的数据仓库内只包含

拥抱开源技术的前提——认识数据湖

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I