如何构建下一代大数据架构——数据湖

如何创建一个适用于多样数据类型,并可扩展的敏捷数据平台?答案就在数据湖中!

图片源于网络

技术和软件的进步使我们能够处理和分析大量数据。虽然很明显,大数据是一个企业投入了大量资金的热门话题,但要注意,除了考虑数据规模,我们还需要考虑到被分析数据类型的多样性。数据种类不同意味着数据集可以存储在许多格式和存储系统中,每个类型都有自己的特征。

考虑数据多样性是一项艰巨的任务,但有一种方法可以使你360度全面了解你的客户,提供商和运营商。为了实现这种方法,我们需要实现下一代大数据架构。接下来,我们来看一下如何构建下一代大数据架构。

如今,较具前瞻性的企业都越来越依赖数据湖。数据湖是管理事务数据库,同时,数据湖也可以看做是一个大数据分析平台。数据湖支持不同来源的数据,如文件,点击流,IoT传感器数据,社交网络数据和SaaS应用程序数据。

数据湖的核心原则是存储原始的,未经改变的数据。这让数据分析和探索更具有灵活性,并且还允许查询和算法基于历史和当前数据,而不是基于单个时间点的快照来演变。数据湖可将数据集中到一个公共存储库中,以此避免信息孤岛。该存储库很可能分布在许多物理机上,但最终将为用户提供透明访问和基础分布式存储的统一视图。此外,数据不仅是分布式的而且是复制的,因此可以确保数据的易访问和可用性。

数据湖存储所有类型的数据,包括结构化和非结构化数据,并通过整个企业的统一视图提供民主化访问。通过这种方法,用户可以在单个平台支持许多不同的数据源和数据类型。 数据库加强了企业现有的IT基础架构,与传统应用程序集成,增强(甚至替换)企业数据仓库(EDW)环境,并可利用日益增长的数据种类和数据量为新应用程序提供支持。

能够存储不同类型的数据是数据湖的一个重要特征,这保证了用户不会丢弃任何有价值的元数据或原属性,不同的数据分析技术也可用于数据的各阶段,避免了仅在其被聚合或变换之后才处理数据而产生的限制。创建可以使用不同算法查询的统一存储库,包括传统EDW环境范围之外的SQL备选方案,是数据湖的标志和大数据战略的基本部分。

为了实现数据湖的最大价值,必须保证数据的质量和可靠性——即确保数据湖可以恰当地反映公司业务。可以轻松访问,让用户能够更快识别他们想要使用的数据。为了管理数据湖,关键是具有清理,保护和操作数据的流程。

构建数据湖不是一个简单的过程,必须决定采集哪些数据,以及如何组织和编目数据。 虽然它不是一个自动化的过程,但有相应的工具和产品来简化企业级现代数据湖架构的创建和管理。这些工具允许提取不同类型的数据包括流,结构化和非结构化,所有这些都为敏捷数据湖平台的创建打下了基础。

本文作者:zyy

来源:51CTO

时间: 2024-12-20 13:10:25

如何构建下一代大数据架构——数据湖的相关文章

《企业大数据系统构建实战:技术、架构、实施与应用》——第2章 企业大数据职能规划 2.1 大数据组织架构体系

第2章 企业大数据职能规划 第1章我们介绍了企业大数据在宏观和微观层面的定位,立足于解答企业大数据的商业模式.市场机会.延伸价值.内部功能定义等问题.当企业已经确定要实施大数据战略时,应该如何针对性地建立职能架构体系以保证企业大数据的有效实施和落地?各个职能部门的职责范畴如何定义?不同体系和部门间如何协同和流程化工作? 本章将详细讲解企业大数据职能规划体系,包括如何定义大数据部门在企业中的角色,常见的大数据职能及职责分工,不同职位的职责划分以及大数据制度和流程建设等问题. 2.1 大数据组织架构

大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求.但把所有的技术集成在一起并不是一件容易的事. IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求.但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务. 在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计.除非公司管理者愿花大量财力和资源来加速推动项目.选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图

构建成功大数据基础设施的七大关键点

大数据是当今许多企业IT运营的一个重要组成部分.据知名调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元.大数据是数据分析的一个关键部分,而分析又是机器和人类商业智能及决策的基础.因为很明显,要是没有某种基础设施,你无法获得各种数据:大数据.小数据或完全正确的数据,所以有必要看一看有助于构建成功大数据架构的几个因素. 其中,一些因素可能看起来很明显,另一些则比较微妙.实际上,所有因素共同对你的大数据系统将支持的分析和行动带来巨大的影响. 当然,不是说只有这七个因素才会对大数据基

BDTC PPT集萃(二):Facebook、LinkedIn等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

大数据架构的未来

本文讲述了大数据的相关问题,以及"大数据架构"得名的由来. 大数据的问题 或许所有读者都明白这一点:数据正在飞速增长.若是能够有效利用的话,我们能从这些数据中找到非常有价值的见解;传统技术有很多都是在40年前设计的,比如RDBMSs,不足以创造"大数据"炒作所宣称的商业价值.在大数据技术的使用上,常见的案例是"客户单一视图";将关于客户所知道的一切内容放在一起,以便最大化服务提供与自身收入,比如确定具体需要采用什么促销方式,又是在什么时候.通过什

EMC为预测性大数据分析交付数据湖方案

文章讲的是EMC为预测性大数据分析交付数据湖方案,EMC公司和Pivotal今天发布数据湖Hadoop2.0包,面向客户的预测分析场景构建横向扩展数据湖,提供一种包含计算.分析和存储在内的交钥匙方案. 作为一种面向由传统和下一代工作负载产生的关键数据,可无限可扩展的知识库,数据湖正蓄势待发.EMC的横向扩展数据湖以企业级特性为设计之本,帮助组织从大数据中获得直接的商业价值. 今年早些时候,EMC和Pivotal发布了第一个数据湖Hadoop包-基于企业级横向扩展存储与企业级Hadoop预测分析的

遭遇云计算 大数据架构对系统提出挑战

大数据将挑战企业的存储架构及数据中心基础设施等,也会引发云计算.数据仓库.数据挖掘.商业智能等应用的连锁反应.2011年企业会将更多的多 TB(1TB=1000GB)数据集用于商务智能和商务分析:到2020年,全球数据使用量预计暴增44倍,达到35.2ZB(1ZB=10亿TB). 大数据面临的挑战 对于海量的数据信息,如何对这些数据进行复杂的应用成了现今数据仓库.商业智能和数据分析技术的研究热点.数据挖掘就是从大量的数据中发现隐含的规 律性的内容,解决数据的应用质量问题.充分利用有用的数据,废弃

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

物联网中的大数据架构、应用案例以及带来的好处

第一节 简介 近年来"物联网"(IoT)和"大数据"是两个最受瞩目的话题.在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结.这包括了手机.咖啡机.洗衣机.耳机.台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1).这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头.无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好.     图 11.1 物联网在连接设备的应用