如何保证Hadoop数据湖不变成“数据洪水”

数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。

数据湖已满,如何防泛滥

数据湖洪水泛滥

数据湖十分灵活,同时具备可扩展和低成本的特点。其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据、非结构化数据以及半结构化数据。这些数据可以是日志文件、点击流、邮件、图像、音频视频或者文本文件。

数据湖中数据类型繁杂

在这些数据中,非结构化和半结构化数据占据了很大一部分,但是由于我们的处理能力不同,一些数据可能在数据湖中存储了很长时间而不能被处理掉,这样就会一直积攒下来保留的现在。

诚然,数据湖可以帮助处理各种形式的数据,这其中以结构化数据为主。而且数据湖具备数据库的大部分特质,可以提供数据查询、结构化数据处理报告等业务。数据湖的最大价值在于数据利用、探索大数据的价值,预测未来结果并为企业提出相关建议,进而指导企业的进一步决策和行动。

“数据洪”一触即发

但是,问题也就发生在这里。因为基于Hadoop部署的数据湖的能力并不足以应付一切,而用户对数据湖又疏于管理。数据量随时间而增加,数据湖开始泛滥,进而有逐步发展成洪水的趋势。数据不能得到有效的分配,“数据洪”随时可能冲溃堤坝,水漫金山。

抗洪还得靠管理

那么数据湖要如何才能避免成为数据洪的悲剧呢?首先应该从根本上改变传统对数据湖的看法。把数据湖当作一个整体库存来管理是存在问题的,对于管理人员来讲,基于数据类型需要把数据湖分成一个个的区,分别处理管理。

基于Hadoop的数据湖需要分类

基于Hadoop的数据湖的区域划分归类对其而言十分重要。管理者需要对其需要提取的数据进行原始数据的保留,并且对其进行元数据标记,标明数据源、数据类型等。当被提取的数据处理完毕之后要对其统一规划并进行后续处理。

如果用户需要选择一些特定应用程序的数据,那么可以通过收集、转换,将来自不同数据源的数据全部带走并进行处理。最后,在处理工作完成后可以通过数据轨迹、处理日志等工具对处理过程进行审核,保障数据处理的完成度。

数据分类管理

这些问题说起来简单,但是做起来却是一件相当麻烦的事情。这要求企业拥有一套十分成熟的数据提取工具,用于数据转化、分类、标记以及其他任务。

而且不仅仅是企业关注这一问题,在Apache的Hadoop社区也有好多团队在致力于开发此类工具。事实上,此类工具更趋向于数据管理专业,这些对于企业来讲并不熟悉。而好消息是,一些相关的生态链已经在Hadoop领域开始形成,相信解决数据湖管理难题的工具将在不久后出现。

====================================分割线================================

本文转自d1net(转载)

时间: 2024-09-17 17:50:33

如何保证Hadoop数据湖不变成“数据洪水”的相关文章

数据湖:大数据游泳的安全方式?

自从Pentaho公司首席技术官詹姆斯•狄克逊创造了"数据湖"这个词,至今已有五年多的时间.他当时提出这个建议,"如果你认为数据集市是一个经过清洗,方便消费的瓶装水商店的'数据湖',那么数据湖则是一个更自然状态的水体."这个比喻很简单.但根据专家的经验,许多最终用户对这个的概念还有很多困惑.在这篇文章中,专家想澄清数据池是什么,组织是否会考虑使用数据湖,以及他们使用数据湖所面临的挑战,并概述了一些支持数据湖软件工具的发展. 数据湖提供了一个处理大数据的方法.数据湖结

360度解析企业智能数据湖平台

本文根据DBAplus社群第86期线上分享整理而成. 讲师介绍  张扬 DaoCloud售前技术支持     负责面向企业用户的DaoCloud应用云平台整体解决方案交付. 曾任职IBM AICS云服务项目,熟悉Cloud Infra和DevOps相关工作.个人公众号:小张烤茄.   主题简介: 1.数据湖概念解析 2.数据湖和数据仓库的区别 3.现代化数据架构 4.DCE智能数据湖平台   一.数据湖概念  数据湖(Data Lake)的概念最早出现在 2011 年福布斯的一篇文章<Big D

如何构建下一代大数据架构——数据湖

如何创建一个适用于多样数据类型,并可扩展的敏捷数据平台?答案就在数据湖中! 图片源于网络 技术和软件的进步使我们能够处理和分析大量数据.虽然很明显,大数据是一个企业投入了大量资金的热门话题,但要注意,除了考虑数据规模,我们还需要考虑到被分析数据类型的多样性.数据种类不同意味着数据集可以存储在许多格式和存储系统中,每个类型都有自己的特征. 考虑数据多样性是一项艰巨的任务,但有一种方法可以使你360度全面了解你的客户,提供商和运营商.为了实现这种方法,我们需要实现下一代大数据架构.接下来,我们来看一

数据湖:不治理便破产

在当今的数据架构中,治理已成为一个关键的组成部分.没有它,公司可能会失去有意义的商业智能. 当STEVE CRETNEY仔细查看存储数量时,他从中发现了颠覆Colony BrandsIT战略的细节. "我们观察到,在我们的SAN(存储区域网络)中,有几百TB的存储,"Colony Brands公司的CIO Cretney说,该直销零售商位于威斯康星州门罗. 其中的大部分,来源于操作系统,一部分会用于分析,但大多数则打包,成了闲置数据.相比之下,Colony Brand的数据仓库内只包含

拥抱开源技术的前提——认识数据湖

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

认识数据湖——拥抱开源大数据技术的前提

世界对数据湖的兴趣依然在不断增长,但如果说对数据湖的宣传都是烟雾弹的话,这就贬低了数据湖真正的能力."数据仓库"和"大数据"等概念都逐渐深入人心,但"数据湖"仍然是让IT和业务相关者头疼的一件事情. 随着人们对于数据湖的清晰定义.使用案例.最佳实践等信息的需求不断增长,IT专业人士需要一则明确的数据湖指南,回答以下问题:数据湖是什么?我们应该如何利用它?数据湖又将如何改变大数据呢? 1.定义及观点 数据湖成为了核心数据架构中发展得很快的一环,但I

符合混合数据结构的数据湖

随着Hadoop的数据湖获得更多的定义和部署,现在开始看起来将与现有的数据仓库技术共存.而混合型数据架构这样一种观点出现在加利福尼亚州圣迭戈召开的2016企业数据世界会议上. "这不是一个有或没有的事情,而是一个共同存在的事情."纽约咨询公司CasertaConcepts公司总裁兼首席执行官乔治·卡塞塔在2016年EDW大会上表示,"企业的数据仓库不会消失.即使当我们正在关注Hadoop和Spark和其他所有闪亮的新事物,它仍然存在." 但是数据湖在大数据科学和分析

数据湖只是个哗众取宠的伪概念吗?

数据湖是个伪概念吗?最直接的答案是是的,在这篇文章中我会告诉你原因. 最大的问题在于"数据湖"这个词已经不堪重负,被供应商和分析师们赋予了太多不同的含义.如果有什么东西不属于传统的数据仓库架构,那就把它归结为某一种数据湖.最后数据湖就成了一个不清楚的.模糊的概念.众所周知,模糊的概念会导致模糊的思路,最后做出很差的决定. 我见过很多关于数据湖的定义,在本文中我们会挨个讨论.有时候大家提到数据湖时指的只是某一个概念,有的时候又会把几个概念混起来谈.有的人谈数据湖时却指的是下面的所有概念.

数据湖:用以分析客户数据的一种更好的方式

"我们的目标是尽可能快的将数据植入我们的业务,使得我们能够不断发掘出新的业务机会."The Weather Company的执行副总裁首席技术官兼首席信息官布莱森·克勒表示说.在任何一个项目中,花费较长的时间,却只是为了清理数据是不现实的.鉴于在如此众多的新的数据来源方面,每天发生的变化都是如此之大,因此单纯的执行数据整理方面的工作永远是都不完整的." 克勒想把从任何地方的所有数据来源所收集到的数据都整合起来,这其中包括了个别气象站点的数据和物联网传感器所收集的数据,以便能够