Hadoop环境中管理大数据存储八大技巧

在现如今,随着IT互联网信息技术的飞速发展和进步。目前大数据行业也越来越火爆,从而导致国内大数据人才也极度缺乏,大讲台了解这一情况后专门在网上开通了这一门大数据培训课程,下面来介绍一下关于Hadoop环境中管理大数据存储技巧吧。

   1、分布式存储

传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能。

虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在,如果你把所有的数据都通过集中式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么将所有的数据节点都集中到一个SAN。

但Hadoop是一个分布式应用,就应该运行在分布式存储上,这样存储就保留了与Hadoop本身同样的灵活性,不过它也要求拥抱一个软件定义存储方案,并在商用服务器上运行,这相比瓶颈化的Hadoop自然更为高效。

2、超融合VS分布式

注意,不要混淆超融合与分布式。某些超融合方案是分布式存储,但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题,但它会造成太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层这样会更好。之后,利用缓存和分层来解决数据本地化并补偿网络性能损失。

3、避免控制器瓶颈(ControllerChokePoint)

实现目标的一个重要方面就是——避免通过单个点例如一个传统控制器来处理数据。反之,要确保存储平台并行化,性能可以得到显著提升。

此外,这个方案提供了增量扩展性。为数据湖添加功能跟往里面扔x86服务器一样简单。一个分布式存储平台如有需要将自动添加功能并重新调整数据。

4、删重和压缩

掌握大数据的关键是删重和压缩技术。通常大数据集内会有70%到90%的数据简化。以PB容量计,能节约数万美元的磁盘成本。现代平台提供内联(对比后期处理)删重和压缩,大大降低了存储数据所需能力。

5、合并Hadoop发行版

很多大型企业拥有多个Hadoop发行版本。可能是开发者需要或是企业部门已经适应了不同版本。无论如何最终往往要对这些集群的维护与运营。一旦海量数据真正开始影响一家企业时,多个Hadoop发行版存储就会导致低效性。我们可以通过创建一个单一,可删重和压缩的数据湖获取数据效率

6、虚拟化Hadoop

虚拟化已经席卷企业级市场。很多地区超过80%的物理服务器现在是虚拟化的。但也仍有很多企业因为性能和数据本地化问题对虚拟化Hadoop避而不谈。

7、创建弹性数据湖

创建数据湖并不容易,但大数据存储可能会有需求。我们有很多种方法来做这件事,但哪一种是正确的?这个正确的架构应该是一个动态,弹性的数据湖,可以以多种格式(架构化,非结构化,半结构化)存储所有资源的数据。更重要的是,它必须支持应用不在远程资源上而是在本地数据资源上执行。

不幸的是,传统架构和应用(也就是非分布式)并不尽如人意。随着数据集越来越大,将应用迁移到数据不可避免,而因为延迟太长也无法倒置。

理想的数据湖基础架构会实现数据单一副本的存储,而且有应用在单一数据资源上执行,无需迁移数据或制作副本。

8、整合分析

分析并不是一个新功能,它已经在传统RDBMS环境中存在多年。不同的是基于开源应用的出现,以及数据库表单和社交媒体,非结构化数据资源(比如,维基百科)的整合能力。关键在于将多个数据类型和格式整合成一个标准的能力,有利于更轻松和一致地实现可视化与报告制作。合适的工具也对分析/商业智能项目的成功至关重要。

以上就是关于北京大讲台大数据培训Hadoop环境中管理大数据存储技巧的详细介绍,想要了解更多关于大数据的新闻资讯,请关注大讲台官网、微信等平台,大讲台IT职业在线学习教育平台为您提供权威的大数据培训课程和视频教程系统,通过大讲台金牌讲师在线录制的第一套自适应Hadoop在线视频课程系统,让你快速掌握Hadoop从入门到精通大数据开发实战技能。

 

  

本文转自d1net(转载)

时间: 2024-10-31 09:29:57

Hadoop环境中管理大数据存储八大技巧的相关文章

管理大数据存储的十大技巧

在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的--虽然是横向扩展型--直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的规模和效率.如果你拥有多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群. 而我们所遇到的最大挑战是平衡数据本地化与规模效率,这是一个鱼与熊掌兼得的话题. 数据本地化是为了确保大数据集存储在计算

盘点管理大数据存储的十大技巧

在1990年,每一台应用服务器都倾向拥有直连式系统(DAS).SAN的构建则是为了更大的规模和更高的效率提供共享的池存储.Hadoop已经逆转了这一趋势回归DAS.每一个Hadoop集群都拥有自身的--虽然是横向扩展型--直连式存储,这有助于Hadoop管理数据本地化,但也放弃了共享存储的规模和效率.如果你拥有多个实例或Hadoop发行版,那么你就将得到多个横向扩展的存储集群. 而我们所遇到的最大挑战是平衡数据本地化与规模效率,这是一个鱼与熊掌兼得的话题. 数据本地化是为了确保大数据集存储在计算

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

详解那些容易出现在大数据存储中的问题

"大数据" 通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.业内对大数据应用寄予了无限的期望,商业信息积累的越多价值也越大,但我们需要一个方法把这些价值挖掘出来.其中的"大"有几层含义,它可以形容组织的大小,更重要的是,它界定了企业中IT基础设施的规模. 多数人们对大数据的印象主要来自于存储容量的廉价性,而实际上,企业每天都在创造大量的数据,而且越来越多,而人们正在努力的从浩如烟海的数据中寻觅有价值的商业情报.另一方面,

《Hadoop大数据分析与挖掘实战》——1.5节餐饮服务中的大数据应用

1.5 餐饮服务中的大数据应用随着餐饮企业规模不断增大,餐饮企业的数据也在不断增长.一个大的餐饮企业可能有很多分店,各个分店的数据综合起来就形成"大数据",但是,如何针对这些"大数据"进行应用分析,得到有价值的信息?餐饮企业如果可以预测销售额,那么餐厅就能在销售的淡季适当调整生产活动,降低运营支出:提前部署营销策略,盘活淡季资源.未雨绸缪,方能做到有备无患.餐饮企业针对大数据做销售额预测,不仅可以考虑各种情况,比如,地理位置.价格.特色.环境舒适度.服务质量等,综合

大数据存储领域的八位明星

正如存储技术分析师Greg Schulz所言,"大数据无与伦比,它拥有承载一切的能力."也就是说目前市场上已经存在多款独立存储工具,旨在帮助存储管理员打理规模日益膨胀的大数据海洋.同样在意料之中的是,其中大部分与Hadoop关系密切. SGI InfiniteStorage SGI InfiniteStorage通过虚拟化技术让存储转化为一整套混合体系,其中既包含性能超群的闪存机制.又拥有成本低廉的磁带方案.而这一切都建立在数据始终在线的基础之上,也就是实现数据对用户的透明化. &qu

云计算中的“大数据”

数据中心正在成为新时代的"信息电厂",成为知识经济的基础设施.过去一年,"大数据"正在成为一个热门话题.半个世纪信息技术的发展,主要解决的是云计算中"结构性"数据的存储.处理与应用."结构性"数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量.时间.类型等信息.这些数据的特征是"逻辑性强",每个"因"都有"果". 然而现实社会中

华为与英特尔构建全融合大数据存储解决方案

IDC预测,全球数据总量将在2020年达到40ZB.40ZB的数据量是什么概念呢? IDC给出了一个比喻:如果把一粒沙子当做一个字的话,40ZB的数据量相当于地球上所有海滩上沙子数量的57倍;40ZB的数据量相当于667千亿部高清影片,一个人每天24小时连续不断地看,看完这些电影需要5万6千亿年;目前我们对地球年龄的估值是45.5亿年,意味着,如果这个人从地球诞生的时候就开始看电影,现在他只看完了这些电影总数的万分之八(0.0008).而这些数据,每两年还将翻一番,呈指数级增长态势.大数据将以一