应用解析:大数据存储服务选择最佳做法

磁盘存储就像是衣橱,永远不够用,在大数据时代,这一点尤为突出。“大数据”意味着需要比传统存储平台处理更多的数据。那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力,而可供参考的信息却很少。

不过,在为大数据选择存储服务时也并不是完全无迹可寻。

何谓大数据

首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及">非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。

由于这些数据缺乏一致性,使标准处理和存储技术无计可施,而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。换句话说,大数据需要不同的处理方法:自己的平台,这也是Hadoop可以派上用场的地方。

Hadoop是一个开源分布式计算平台,它提供了一种建立平台的方法,这个平台由标准化硬件(服务器和内部服务器存储)组成,并形成集群能够并行处理大数据请求。在存储方面来看,这个开源项目的关键组成部分是Hadoop分布式文件系统(HDFS),该系统具有跨集群中多个成员存储非常大文件的能力。HDFS通过创建多个数据块副本,然后将其分布在整个集群内的计算机节点,这提供了方便可靠极其快速的计算能力。

从目前来看,为大数据建立足够大的存储平台最简单的方法就是购买一套服务器,并为每台服务器配备数TB级的驱动器,然后让Hadoop来完成余下的工作。对于一些规模较小的企业而言,可能只要这么简单。然而,一旦考虑处理性能、算法复杂性和数据挖掘,这种方法可能不一定能够保证成功。

你的存储架构

这一切都归结到所涉及的存储结构和网络性能。对于经常分析大数据的企业而言,可能需要一个单独的基础设施,因为随着集群中计算节点的数量的增长,带宽开销也会增长。通常情况下,使用HDFS的多模计算集群在处理大数据时将会产生大量流量。这是因为Hadoop在集群的成员服务器间传输数据(以及计算资源)。

在大多数情况下,基于服务器的本地存储并没有高效率的优点,这也是为什么很多企业转向使用高速光纤结构的SAN来最大限度地提高吞吐量。然而,SAN方法本身并不一定适合大数据部署。尤其是那些使用Hadoop的大数据部署,因为SAN承担集中硬盘上数据的责任,这反过来意味着每个计算服务器将需要访问相同的SAN来恢复正态分布的数据。

然而,当比较本地服务器存储和基于SAN的存储时,本地存储在两个方面占据优势:成本和整体性能。简而言之,没有在每个计算成员放置RAID的原始磁盘在处理HDFS请求时将胜过SAN,然而,基于服务器的磁盘存在缺点,主要是在可扩展性方面。

问题是当服务器依赖于本地存储时,你如何在必要的时候增加更多的容量。通常,有两种方式来处理这种困境。第一种方法是增加具有更多本地存储的额外的服务器。第二种方法是增加集群服务器的容量。这两种方法都需要购买和配置硬件,这将导致停机时间,可能还需要重新设计架构。然而,无论使用哪种方法都要比向SAN增加容量要便宜,可以说,这是一个显著的成本优势。

然而,当涉及到Hadoop时,还有其他存储选择。例如,一些领先的存储厂商都在建立专门针对Hadoop和大数据分析的存储设备。这些供应商包括EMC,目前提供Hadoop解决方案,例如Greenplum HD Data Computing Appliance。甲骨文正在考虑进一步深化Exadata系列设备,提供计算能力以及高速存储。

最后一个存储选择是云形式的存储,Cloudera、微软、Amazon和很多其他供应商都在提供基于云的大数据解决方案,这些解决方案能够提供处理能力、存储和支持。

在选择大数据存储解决方案时需要考虑究竟需要多少空间,分析频率如何以及需要处理什么类型的数据。这些因素,以及安全、预算和处理时间都是选择大数据存储解决方案时需要考虑的因素。

可能站在保险的角度来看,一个试点项目可能是一个不错的开始,商品硬件也是大数据试点项目的低成本投资选择。

(责任编辑:杜庆先)

时间: 2024-12-23 07:41:04

应用解析:大数据存储服务选择最佳做法的相关文章

戴尔专门拿出6000万美元押宝大数据存储服务

戴尔(http://www.aliyun.com/zixun/aggregation/13533.html">Dell)创始人Michael Dell近日宣布,戴尔公司将会专门拨出6000万美元的投资基金,用于投资存储初创公司. 戴尔公司表示,未来的大数据存储将会创造一个巨大的市场.Michael Dell声称,在未来,一定会有围绕大数据服务而产生的伟大公司,戴尔愿意帮助他们在初期发展. 数据存储将会越来越重要,Michael认为,各种数据存储技术将会大发展.而戴尔公司专门拿出6000万美

吞噬大数据存储领域新机制——NoSQL模式解析

在过去几年,一种新兴的大型数据存储机制正吞噬大数据存储市场.这种存储解决方案与传统的RDBMS有显著的区别,它们被称之为NoSQL. 在NoSQL世界中有以下关键的成员,包括 ●Google BigTable.HBase.Hypertable ●Amazon Dynamo.Voldemort.Cassendra.Riak ●Redis ●CouchDB.MongoDB 而这些解决方案又有一些共同的特点 ●基于键-值存储 ●系统运行在海量的普通机器上 ●数据在经过分区和复制后分布在集群中 ●放宽对

《大数据管理概论》一3.2 大数据存储与管理方法

本节书摘来自华章出版社<大数据管理概论>一书中的第3章,第3.2节,作者 孟小峰,更多章节内容可以访问"华章计算机"公众号查看 3.2 大数据存储与管理方法 闪存.PCM等新型存储介质的引入使得大数据存储架构有了多种选择.但由于新型存储介质在价格.寿命等方面与传统的磁盘相比不具优势,因此目前主流的观点是在大数据存储系统中同时使用新型存储介质和传统存储介质,由此产生了多种基于新型存储的大数据存储架构,如基于PCM的主存架构.基于闪存的主存扩展架构.基于多存储介质的分层存储架构

大数据计算服务Maxcompute之--mapjoin原理和使用

大数据计算服务(MaxCompute,原名 ODPS)是一种快速.完全托管的 GB/TB/PB 级数据仓库解决方案.https://help.aliyun.com/document_detail/27800.html?spm=5176.7840267.6.539.po3IvS 主要有三种操作数据的方式SQL,UDF,MapReduce,了解hadoop的同学就比较熟悉这些东西了. 那么Maxcompute的SQL和标准SQL最大的区别就是在Maxcompute中SQL会被解析成MapReduce

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

宝德:大数据重在服务民生

数据市场正在发生着一系列变化:数据关系已经从简单发展到复杂:数据来源已经从数据录入转变为各种来源:从数据量已经超越了TB级到PB级.数据模型从结构化发展到半结构化或非结构化--这一系的列变化催生出大数据时代.宝德认为,虽然大数据技术在短短几年间就发生突飞猛进的发展,但是其最终优势还取决于--服务民生. 传统数据应用重在宏观把握 我们可以看到传统的数据应用,基于传统关系数据库和传统的数据挖掘,其作用在于数据的宏观的管理.比如我们在信息化建设初期,逐渐完成了金融.银行.税务.政府.社保.医疗以及国家

大数据不只是数据大 全面解析大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术.新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来.究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很"土鳖";二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然. 我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆

《大数据存储:MongoDB实战指南》一1.5 大数据与MongoDB

1.5 大数据与MongoDB 大数据存储:MongoDB实战指南大数据意味着新的机会,企业能够创造新的商业价值.MongoDB这样的数据库可以支撑很多大数据系统,它不仅可以作为一个实时的可操作的大数据存储系统,也能在离线大数据分析系统中使用.利用MongoDB作为大数据的云存储系统,企业能够在全世界范围内存储更多的数据,吸引更多的用户,挖掘更多用户的喜好,创造更多的价值. 选择正确的大数据存储技术,对使用者的应用和目标是非常重要的.MongoDB公司提供的产品和服务能让使用者担更少的风险.花更

一家贵阳驾校建立驾培大数据云服务平台的畅想

因为车辆有限等原因,在贵阳的驾校中,经常可以看到学员三三两两围在一起等待练车的情景."等贵州驾校行业云服务平台建立后,这种情况将成为历史."贵州吉源实业发展有限公司总裁龙红阳说. 3月1日,借助贵州发展大数据产业的东风,贵州吉源实业发展有限公司旗下的贵州吉源驾驶培训学校与北京市计算中心签订合作协议,将投资7.7亿元建设立足贵州.面向全国的驾培大数据云服务平台.平台建成之后,各驾校运营相关数据将自动存储在平台上,形成强大的数据仓库,不仅可为驾培行业提供更优质高效服务,还能给相关职能部门提