随着Hadoop的数据湖获得更多的定义和部署,现在开始看起来将与现有的数据仓库技术共存。而混合型数据架构这样一种观点出现在加利福尼亚州圣迭戈召开的2016企业数据世界会议上。
“这不是一个有或没有的事情,而是一个共同存在的事情。”纽约咨询公司CasertaConcepts公司总裁兼首席执行官乔治·卡塞塔在2016年EDW大会上表示,“企业的数据仓库不会消失。即使当我们正在关注Hadoop和Spark和其他所有闪亮的新事物,它仍然存在。”
但是数据湖在大数据科学和分析应用中找到了用武之地。乔治·卡塞塔表示,基于Hadoop的数据湖通常首先要处理大量和快速到达的大量非结构化数据。卡塞塔和其他专家表示,数据湖是大数据的趋势,将为数据专业人员熟悉实践的重要组成部分带来改变。
“我们采数据仓库创建了第一个数据模型,但这已经发生了变化,“卡塞塔说。随着数据湖的采用,这些模型都已落后。“我们不这样做,马上就落后了。”他说。
分析和应用
其中的一个原因是数据湖与实时数据流关联。随着分析使得业务应用更加紧密,并成为了实时决策的一部分,数据需要尽快地创建和访问。卡塞塔说,这也使得它与数据仓库的工作有很大的不同,这将继续成为必要业务报告的基础。
这个观点是由零售数据安全和电子商务服务提供商FirstData公司支付处理数据管理总监汤姆·普莱斯所分享的,他看到数据湖和数据仓库不同的应用,以及对数据结构的需要。
“数据仓库是专为缓慢变化的数据设计的,每天、每周和每月的汇总,以及已知的、结构化的数据”。普莱斯说,“而另一方面,数据湖是为快速变化的数据设计的,而数据湖可以告诉你一分钟前或五分钟前发生了什么事。”
像卡塞塔一样,普莱斯看到了从数据湖进入数据仓库的非结构化数据的选择性汇总的区别。
数据水库
作为数据湖泊的发展,作为处理简单和未分化的数据的应用可能会接近尾声。卡塞塔和普莱斯都看到在数据湖有着不同程度的数据治理应用于不同层次的数据。
这些部门主要是为用户提供先进和技能和分析。总部在亚特兰大的FirstData公司数据的消费者包括业务分析师和数据科学家,但也有一些产品创新和产品优化专家。其应用范围从商业报告到预防欺诈的案例。
普莱斯说,他其实更喜欢将长期的数据湖称为数据水库这样的术语。在他看来,数据水库可以传达摄入的数据将被处理的想法。
“数据湖本身只是一个用户不理解的原始数据的集合,它可能无法管理,无法验证用户。”普莱斯说,“有了数据水库,这些数据能够得到很好地治理,充分理解以及良好的管理。而且,你其实可以采用数据做更有价值的事情。”
长期沙箱
数据湖作为一个术语,远未受到普遍欢迎。总部在明尼阿波利斯一家保险和投资管理企业Thrivent金融公司的数据和商业智能交付高级架构师卢米尼察·沃尔默表示,并不喜欢这个术语。她倾向于共同发展的长期沙箱,因为很多数据湖的使用是实验性的。
不过,在数据仓库的前景会议上,她告诉与会者关注他们目前的数据仓库,以及他们的组织将如何使用未来的工具,包括NoSQL数据库和预测性分析软件的前景。她说,Hadoop已经在许多组织中占据了数据结构中的位置。
与其他人一样,沃尔默说,数据分析用户的一个新的频谱正在形成。当企业数据仓库是唯一的游戏时,事情是不同的,她说,这将影响到向前发展的数据管理团队的方式。
“必须要有一些人支持目前的系统和一些人做一些研究。”沃尔默说,“这可能使我们做事的方式发生变化。”
本文转自d1net(转载)