数据湖前途未卜?

大数据对于商务人士来说是让人兴奋的产物,许多的大数据杀手级应用将不断出现。对于存储管理员来说,存储基础设施将不断增长,这是毫无疑问的。你一直都在所有客户中收集终端用户每毫秒的行为数据,想象一下如果你可以立即查看所有数据,不需要考虑数据监管、数据管理、数据保护和其它所有相关的烦恼,你需要做的只是把你所有的数据放到一个相对廉价又具备扩展性的Hadoop存储中,这是多么令人期待的事!

大数据湖能够满足不断增长的数据需求,并为你的业务提供有价值的服务。通过将不同来源的数据集采集到一个集中平台,使用容易扩展的大数据方法提供多租户的分析服务,还会创造许多新的数据挖掘机遇。数据湖的总潜力值随着可用于分析的数据量增加。一个大数据和大数据湖的关键原则是你不需要提前建立主数据模型,非线性增长是不会出现的。

企业数据湖或hub的概念最初是由Cloudera和Hortonworks这样的大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但你的数据量越大,你越可能需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

所以,今天传统的存储厂商正在分析大数据湖的前景。从存储市场的角度来看,数据湖就像另一个云计算一样。“所有人都需要一个数据湖,你怎么能够没有一个(甚至两个、三个)?”但企业使用存储有多种选择,可以采用支持HDFS和Hadoop虚拟化的企业级存储,这种存储可以将其它存储协议转换成HDFS。也可以采用可扩展的软件定义存储。

大量,快速,现在

数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。现在的大数据架构是可扩展的,并且可以为用户提供越来越多的实时分析。在商业智能(BI)和数据仓库还没有被淘汰的今天,大数据分析和大数据湖正在向更多类型的实时智能服务发展,这些实时的智能服务可以支持实时的决策制定。Hadoop和它的生态系统已经度过了它们的理论研究阶段,它们已经可以为实际的应用需求服务了。数据管理和数据分析的应用程序已经开发得非常友好,高级的向外扩展机器学习技术也已经投入应用并嵌入至只需要用鼠标就能简单操作的大数据挖掘软件中。然而,IT仍然需要对数据湖里的所有数据负责,所以在这里我们列举了几个企业数据湖的几个关键特点:

保存一份集中的数据索引(或元数据),包括数据源、版本、精细度和准确度。如果在这方面没有自动化的支持,一个数据湖会很快被冲垮。

对数据进行安全的授权、审计和访问控制。Hadoop生态系统在数据安全性方面正在快速发展,因为这是企业的强制性需求。有许多新产品为大数据资产提供一定的安全性,也有许多产品致力于保护数据湖中的大量新数据、用户和不断增长的资产价值。

对数据湖中的数据启用监管功能,并强制启用保留(retention)和处置(disposition)策略(以及追踪个人可识别信息)。最优秀的产品(如Dataguise)会强制使用监管和合规需求,无论数据湖中有多少数据或是什么类型的数据集。

为操作可用性和BC/DR需求确保一定规模的数据保护。远程复制是必要的吗?已经成为了一个关键业务运营平台的数据湖里的大量实时数据流对远程复制来说就是洪水猛兽。

使用多种大数据分析方法(不仅仅只是Hadoop)和工作流利用数据湖提供敏捷分析。在某种程度上,Hadoop和HDFS实际上是软件定义存储产品,它们具有数据感知功能,可以提供内置的大数据分析服务。但也有其它产品也能提供很好的数据湖解决方案,如Spark和一些专有的OLAP或在线分析处理大数据分析平台(如HP Haven等)。

我们在今天的企业级存储产品可以找到上面提到的这些功能,它们说明了为什么许多厂商热衷于数据湖领域,因为云和大数据会带来很大的经济效益。注重质量的企业级软件定义存储会成为这一领域的领导者。

前景还不清晰的数据湖

数据湖真的是一个好的方案吗?一个我们最开始可能会问的问题就是我们是否真的需要把所有的数据都汇聚到一起?在一个地方建立整个企业的数据聚集点会带来巨大的风险。另一个的问题是数据湖真的是一个节约成本的解决方案吗?特别是像Google、Facebook这种具有海量数据的公司。

数据湖的方案最好是慢慢来实现,而不是大规模的重新设计整个数据中心。数据湖的价值取决于我们的数据,大规模的部署向外扩展的共享架构将使许多组织从数据湖(至少是数据池)中汲取养分。

本文作者:佚名
来源:51CTO

时间: 2024-10-25 19:50:24

数据湖前途未卜?的相关文章

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够

360度解析企业智能数据湖平台

本文根据DBAplus社群第86期线上分享整理而成. 讲师介绍  张扬 DaoCloud售前技术支持     负责面向企业用户的DaoCloud应用云平台整体解决方案交付. 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作.个人公众号:小张烤茄.   主题简介: 1.数据湖概念解析 2.数据湖和数据仓库的区别 3.现代化数据架构 4.DCE智能数据湖平台   一.数据湖概念  数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章<Big D

数据湖恶化成了数据沼泽?你一定没有注意这3点

多年来,在Apache Hadoop等技术的支持下,组织一直在寻求构建数据湖--企业范围的数据管理平台,允许以原生格式存储所有数据.数据湖可通过提供给一个单一的数据存储库来打破信息孤岛问题,整个组织都可以使用从业务分析到数据挖掘的所有东西.原始和不受约束,数据湖被认为是一个包罗万象的大数据. 但是,商业智能(BI)软件专家,金字塔分析公司的首席技术官Avi Perez说,他看到许多客户的数据湖正在恶化为数据沼泽--完全无法接近终端用户的大量数据存储库. "数据库真的很贵."Perez说

新联邦业务数据湖为颠覆大数据应用铺路

文章讲的是新联邦业务数据湖为颠覆大数据应用铺路,EMC公司今天发布联邦业务数据湖.这套完整的工程解决方案包括来自EMC信息基础设施.Pivotal和VMware的领先的存储及大数据分析技术,帮助客户利用大数据的新世界,从而扫清通向新洞察和颠覆性差异化道路的障碍. 方案可在短至七天内实施,联邦业务数据湖可极大简化构建一个数据湖所需的大量复杂任务,是专为企业需要的速度.自服务和可扩展性而设计,让组织能够通过使用大数据分析,开始更好地进行业务决策.作为一个来自EMC联邦的融合解决方案, 联邦业务数据湖

智能数据湖势在必行

由大数据触发的数据驱动的做法是一种最好的理解.如今,各个组织正在各种数据结构,格式和分布式地理数据源位置等方面进行竞争,并在时间框架和数量上超过了现有系统的能力. 以往人们关注了社交,移动和云平台的应用与发展.同样重要的是,在大数据时代之后涌现出的几种辅助技术得到了蓬勃发展,由此产生的基础架构,架构,以及IT挑战表明,整个数据环境发生了模式转变,这种变化是由改变业务进行方式的力量的开始决定的. 由于这种转变的迅速性和其需求的即时性,许多组织希望在市场上寻找最好的解决方案,并有大量的点解决方案来解

Isilon三款新品构建数据湖2.0策略

公司的边缘数据一直是被忽略的存在,据ESG的报告显示,将近70%的公司存在边缘办公室,并且边缘数据达到了10PB.如何将这些边缘数据管理起来成为一个挑战,因为边缘数据在存储上存在一定的技术壁垒,Isilon则发布3款新产品IsilonSD Edge.新一代IsilonOneFS操作系统.新一代IsilonCloudPool来拓展数据湖策略,打通边缘.核心和云. 向数据湖2.0扩展 Isilon自2008年进入中国,在2010年被EMC收购后,借助其平台Isilon迎来了业务的快速增长,平均年复合

数据湖:大数据游泳的安全方式?

自从Pentaho公司首席技术官詹姆斯•狄克逊创造了"数据湖"这个词,至今已有五年多的时间.他当时提出这个建议,"如果你认为数据集市是一个经过清洗,方便消费的瓶装水商店的'数据湖',那么数据湖则是一个更自然状态的水体."这个比喻很简单.但根据专家的经验,许多最终用户对这个的概念还有很多困惑.在这篇文章中,专家想澄清数据池是什么,组织是否会考虑使用数据湖,以及他们使用数据湖所面临的挑战,并概述了一些支持数据湖软件工具的发展. 数据湖提供了一个处理大数据的方法.数据湖结

探讨企业数据架构战略和数据湖的可能性和必要性

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配. 现今的CIO们,在整合企业数据架构 中日益增长的各方面需求时,面临着两大挑战.首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配.其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成.CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性. 然 而,大多数企业的数据架构,随着时间的推移,通常在缺

如何保证Hadoop数据湖不变成“数据洪水”

数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要.但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题. 数据湖已满,如何防泛滥 数据湖洪水泛滥 数据湖十分灵活,同时具备可扩展和低成本的特点.其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据.非结构化数据以及半结构化数据.这些数据可以是日志文件.点击流.邮件.图像.音频视频或者文本文件. 数据湖中数据类型繁杂 在这些数据中,非结构