直面大数据 存储基础设施应该如何部署

最近,大家都在讨论大数据分析及其带来的商业情报的价值,但是在企业从这些数据中挖掘出有效信息之前,他们必须弄清楚该如何存储这些大数据。管理大数据(PB级或者更大的数据)与管理传统大型数据集完全不同,在线照片分享平台Shutterfly公司就非常清楚这一点。

  Shutterfly是一个在线照片分享网站,它允许用户上传无限数量的照片,并以用户上传的分辨率来保存,绝对不会压缩尺寸,这与其他照片分享平台有所不同,同时,Shutterfly也表示从来不会删除一张照片。

  “我们的照片存档大约是30PB的数据,”Shutterfly公司高级副总裁兼首席技术官Neil Day表示,“我们的存储池增长的速度比客户增长的速度还快。当我们获得一个客户时,他们做的第一件事就是向我们上传一堆照片,然后他们就会爱上我们的服务,然后他们又会上传另外一堆照片。”

  为了对数据规模有个认识,大家可以看看这些信息:1 PB相当于100万TB或者10亿GB,美国宇航局哈勃太空望远镜前20年观测的图像数据大约为45TB的数据,而以128 KB/s记录的1TB压缩音频大约包含1.7万小时的音频。

  完全不同的PB级基础设施

  “PB级基础设施是完全不同的一回事,”Day表示,“它们很难建立和维护。PB或多PB级基础设施与传统大规模数据集之间的差别简直就像白天和黑夜的差别,就像在笔记本电脑上处理数据和在RAID阵列上处理数据之间的差别。”

  当Day在2009年加入Shutterfly时,存储已经成为该公司最大的开支,并且以飞快的速度增长。

  “每N个PB的额外存储意味着我们需要另一个存储管理员来支持物理和逻辑基础设施,”Day表示,“面对大规模数据存储,系统会更频繁地出问题,任何管理超大存储的人经常都要处理硬件故障。大家都在试图解决的根本问题是:当你知道存储的一部分将在一段时间内出现问题,你应该如何确保数据可用性,同时确保不会降低性能?”

  RAID问题

  解决故障的标准答案是复制,通常以RAID阵列的形式。但Day表示,面对庞大规模的数据时,RAID解决问题的同时可能会制造更多问题。在传统RAID数据存储方案中,每个数据的副本都被镜像和存储在阵列的不同磁盘中,以确保完整性和可用性。但这意味着每个被镜像和存储的数据将需要其本身五倍以上的存储空间。随着RAID阵列中使用的磁盘越来越大(从密度和功耗的角度来看,3TB磁盘非常具有吸引力),更换故障驱动器的时间也将变得越来越长。

  “实际上,我们使用RAID并不存在任何操作问题,”Day表示,“我们看到的是,随着磁盘变得越来越大,当任何组件发生故障时,我们回到一个完全冗余的系统的时间增加。生成校验是与数据集的大小成正比的。当我们开始使用1TB和2TB的磁盘时,回到完全冗余系统的时间变得很长。可以说,这种趋势并没有朝着正确的方向发展。”

  对于Shutterfly而言,可靠性和可用性是非常关键的因素,这也是企业级存储的要求。Day表示,其快速膨胀的存储成本使商品系统变得更具吸引力。当Day及其团队在研究潜在技术解决方案以帮助控制存储成本时,他们对于一项叫做纠删码(erasure code)的技术非常感兴趣。

(责任编辑:蒙遗善)

时间: 2024-10-12 05:24:25

直面大数据 存储基础设施应该如何部署的相关文章

详解大数据存储:哪些问题最容易出现

"大数据" 通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.这里的"大"有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模.业内对大数据应用寄予了无限的期望 商业信息积累的越多价值也越大 只不过我们需要一个方法把这些价值挖掘出来. 也许人们对大数据的印象主要从存储容量的廉价性而来,但实际上,企业每天都在创造大量的数据,而且越来越多,而人们正在努力的从浩如烟海的数据中寻觅有价值的商业情报.另一

大数据存储:哪些问题最容易出现

大数据在IT行业是与云计算并驾齐驱的另一大热门话题."大数据" 指的是那些数量巨大.难于收集.处理.分析的数据集,这就容易出现存储问题,本文介绍的容易出现的几大问题. "大数据"通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.这里的"大"有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模.业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把

大数据存储问题处理成2014主要任务

大数据在IT行业是与云计算并驾齐驱的另一大热门话题."大数据"指的是那些数量巨大.难于收集.处理.分析的数据集,这就容易出现存储问题,本文介绍的容易出现的几大问题. "大数据"通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.这里的"大"有几层含义,它可以形容组织的大小,而更重要的是,它界定了企业中IT基础设施的规模.业内对大数据应用寄予了无限的期望商业信息积累的越多价值也越大只不过我们需要一个方法把这

详解那些容易出现在大数据存储中的问题

"大数据" 通常指的是那些数量巨大.难于收集.处理.分析的数据集,亦指那些在传统基础设施中长期保存的数据.业内对大数据应用寄予了无限的期望,商业信息积累的越多价值也越大,但我们需要一个方法把这些价值挖掘出来.其中的"大"有几层含义,它可以形容组织的大小,更重要的是,它界定了企业中IT基础设施的规模. 多数人们对大数据的印象主要来自于存储容量的廉价性,而实际上,企业每天都在创造大量的数据,而且越来越多,而人们正在努力的从浩如烟海的数据中寻觅有价值的商业情报.另一方面,

大数据存储领域的八位明星

正如存储技术分析师Greg Schulz所言,"大数据无与伦比,它拥有承载一切的能力."也就是说目前市场上已经存在多款独立存储工具,旨在帮助存储管理员打理规模日益膨胀的大数据海洋.同样在意料之中的是,其中大部分与Hadoop关系密切. SGI InfiniteStorage SGI InfiniteStorage通过虚拟化技术让存储转化为一整套混合体系,其中既包含性能超群的闪存机制.又拥有成本低廉的磁带方案.而这一切都建立在数据始终在线的基础之上,也就是实现数据对用户的透明化. &qu

应用解析:大数据存储服务选择最佳做法

磁盘存储就像是衣橱,永远不够用,在大数据时代,这一点尤为突出."大数据"意味着需要比传统存储平台处理更多的数据.那么这对于CIO意味着什么呢?意味着他们将需要做出更多的努力,而可供参考的信息却很少. 不过,在为大数据选择存储服务时也并不是完全无迹可寻. 何谓大数据 首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序).大数据本身意味着非常多需要使用标准存储技术来处理的数据.大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库.日志.SQ

吞噬大数据存储领域新机制——NoSQL模式解析

在过去几年,一种新兴的大型数据存储机制正吞噬大数据存储市场.这种存储解决方案与传统的RDBMS有显著的区别,它们被称之为NoSQL. 在NoSQL世界中有以下关键的成员,包括 ●Google BigTable.HBase.Hypertable ●Amazon Dynamo.Voldemort.Cassendra.Riak ●Redis ●CouchDB.MongoDB 而这些解决方案又有一些共同的特点 ●基于键-值存储 ●系统运行在海量的普通机器上 ●数据在经过分区和复制后分布在集群中 ●放宽对

《大数据存储:MongoDB实战指南》一1.10 小结

1.10 小结 大数据存储:MongoDB实战指南 MongoDB是一个面向文档的数据库,不支持关系数据库中的join操作和事务.它用集合的概念代替了关系数据库中的表,用最小逻辑单元文档代替关系数据库中的行.它的集合结构是动态的,没有必要像关系数据库一样插入数据前先定义表结构,而且可以随时增加.修改.删除组成文档的字段. MongoDB支持当前所有主流编程语言的客户端驱动,使用方便,应用广泛,非常适合文档管理系统的应用.移动APP应用.游戏开发.电子商务应用.分析决策系统.归档和日志系统等应用.

云时代的大数据存储-云HBase

为什么 纵观数据库发展的几十年,从网状数据库.层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异.在20世纪80年代后,大部分的业务确定使用RDBMS数据为存储基础.新世纪开始,随着互联网的发展,数据量的增大,慢慢RDBMS数据库撑不住,就出现了读写分离策略.随着压力增加,Master撑不住,这时就要分库,把关联不大的数据分开部署,一些join查询不能用,需要借助中间层.随着数据量的进一步增加,一个表的记录越来越大,查询就变得很慢,于是