数据存储需求不断增加 不止局限于技术上的开源

随着高清摄像机的快速普及和推广,数据呈现爆发式增长,而相关法律的出台(如《中华人民共和国反恐怖主义法》和《关于人民法院诉讼档案保管期限的规定》规定资料长周期保存)又成为有力的市场推手,加速了数据的暴增程度,对海量存储空间的需求为存储厂商带来了前所未有的良好机遇。目前物理介质存储器在存储密度、体积和成本的平衡方面已经达到瓶颈,传统的企业存储策略已无法跟上企业数据迅猛增长的节奏。数据存储技术有什么突破?我们真的需要将所有的数据都永久保存吗?或许对于数据存储,人类要做的不只是技术上的“开源”。

一、数据存储方式多样,全球数据量逐年递增

在数据量快速增长的背景下,容易生出一个疑问:这么多的数据,究竟都被存放在何处?其实回归本质看这个问题,答案非常简单,那就是“硬盘”。依此类推可知,庞大的数据的存储自然需要非常多的硬盘。比如谷歌,其早些年的数据中心就已经拥有上万块硬盘,如果按1TB(terabajt,太)的标准计量,能够达到10PB(petabajt,拍)的数量级,用于一般存储可以说绰绰有余。

而在国内,像百度云等数据存储服务则开创了10Gb TOR交换机、SSD(自制固态硬盘)等用于大规模数据存储的技术。但当数据量开始变得庞大,就需要以服务器作为主要存储方式。

服务器能够存储数据、处理数据。通过网络协议,使人们在客户端快速获取存储其中的数据,用户也可以上传文件。在上传和下载的过程中,形成了互联网频繁的数据交换,其外在体现是我们经常在一些科幻影视剧中看到的信号灯疯狂闪烁的画面。

当需要存储的数据越来越庞大时,增加硬盘、服务器和带宽都需要非常高的成本。因而对于更庞大数据的存储和处理,需要数据中心作为辅助。

在上图中,每个柜子中的每一排都插入了大约20~40台机器,整个数据中心就由成千上万台这样联网在一起的机器构成。不一定有硬盘,但一定有处理器和内存。其中的硬盘每天都会有人工进行置换,由于硬盘时常损坏,所以每份数据大概会在不同的机器中至少备份三份。数据中心的地点通常在地皮、水电、制冷价格较低的郊区。

这样的技术投资自然更大,但也视情况而定。像BAT这样的巨头用户基数和数据体量极为庞大,相关产品众多,投资自然也随之增加。而一些小厂商没有庞大的数据,对数据存储方面的投入自然也少一些。

然而,全球数据量庞大已成趋势。据IDC公布的调查数据显示,未来全球数据将维持50%左右的增长率,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国将达到8.6ZB,占全球的21%。

随之而来的是大数据市场的繁盛,根据中国信息产业研究院的数据显示,去年中国大数据市场规模约为116亿元,同比增长38%,未来将以40%左右的规模高速增长。数据量的飞速增长及市场的繁盛,需要存储技术的支撑。

二、存储技术取得突破,但短期内不能实现商用

目前常用的数据存储方式有DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,局域网络存储)等。然而面对数据量的一再庞大,缩小存储介质的体积以减少占地及投入成为了重中之重。

在IBM此次研发的“孤立原子”存储方式中,运用了曾获诺贝尔奖的STM(scanning tunneling microscopes,扫描穿隧式显微镜),并与Holmium(钬原子)技术相配合,用以创造并监控这一磁体,而之后的数据读写操作则借助电流完成。此技术能极大缩减存储介质体积,意味着人们能将3500万首歌曲大小的文件存储在一个信用卡大小的硬盘中。

其实,IBM可以算得上是数据存储技术的先驱企业之一。早在1956年就研制出了世界上第一台计算机硬盘驱动器“IBM305RAMAC”。1991年,IBM推出首款采用感应式薄胶片磁阻磁头的磁盘“0663Corsair”。

不过,IBM于2003年将其数据存储部门出售给日立,结束了在磁盘领域的历程,如今IBM或许会借助新的数据存储技术重回这一领域。但该项目的研究员Chris Lutz表示,这项研究离商用的距离还有数十年。

除了运用了新技术的“孤立原子”方式,近期另一项大热的数据存储技术是利用DNA存储数据。此种技术的优势在于DNA排列极为紧凑,并且不会随时间的推移损坏或发生降解。据统计,4克DNA就能保存人类每年产生的所有数据,并且存储时长大于100年,与传统存储介质相比高出了一个数量级。

然而,与IBM新的数据存储技术一样,DNA存储技术离商用同样有着多年的距离。面对这种状况,除了努力研发和深耕技术之外,或许更应该想想:我们真的需要保存全部的数据吗?显然不是。因此,在不断研发和提升存储技术的同时,对于数据的存储量也应该适当地采取一些控制措施。

三、数据存储不能只顾“开源”,“节流”同样重要

Intel的创始人Gordon Moore曾说:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。此定律揭示了信息技术进步的速度,即著名的“摩尔定律”。

这一定律在数据存储领域同样可被借鉴。信息技术不断进步,闪存、磁盘、数据中心、DNA等各种新的存储技术不断出现。可即便如此,仍难以满足日渐庞大的数据体量的存储需求,加之IoT(物联网)行业的发展,致使数据的体量更为惊人。

不可否认,这些数据中许多都蕴含着价值,但也不能忽视数据的惊人体量。难道到2020年我们要将44ZB的数据全部记录并存储下来吗?显然是天方夜谭。物联网的发展使机器能够自行收集并保存数据,但在这些数据中,真正有价值的其实并不是全部。

比如智能设备所记载的用户数据,交通工具行驶过程中产生的数据,这类数据在当下可用性强,但当个体消失或工具报废之后,余下的数据是总结抑或是弃之不用?这些数据要存储到何时?其中需要多少费用?这些数据的价值与存储它们投入的成本是否可以成正比呢?

事实上,在这类数据中,人们只看一次的比例超过90%。因此在这个每天产生大量数据的时代,要学会优先提炼重要数据,对于边缘化的数据应适当摒弃。在数据的存储和摒弃之间找到一个平衡点,能够使数据产生更高的价值。

在信息高速发展的时代,大数据的作用愈发重要。一方面,人类在努力“开源”,研发新的数据存储技术,以便适应大数据时代的发展。但另一方面,“节流”同样重要。分清主次,找到数据存储价值的最高点,有助于提升效率,节省投入,更好地推动大数据时代的进一步发展。

原文发布时间为:2017年3月15日

时间: 2024-11-17 13:39:09

数据存储需求不断增加 不止局限于技术上的开源的相关文章

每年14PB数据存储需求,海量交通安全数据如何安放?

据中国汽车工业协会统计分析,2016年8月,在商用车主要品种中,与上月相比,客车和货车产销均呈增长,货车产销22.26万辆和23.25万辆,环比增长9.15%和10.21%,同比增长20.51%和15.37%. 而远程被管理车辆每天大约需要上传20MB左右的数据.按照100万辆计算,每月大约600TB,每年7.2PB左右.而100万辆车对数据中心的存储需求大约在14PB. 面对不断增长的数据,对商用车纳入远程监控管理和提供远程信息服务的要求日益提高.相关交通运输行业作为传统行业的"老大哥&quo

关于数据存储需要知道的几项技术

  今年,英特尔和美光将推出3D XPoint存储器,又称Optane,该产品将比目前NAND闪存的性能和耐久性提高1000倍.     3D Xpoint技术又称Optane,比NAND快1000倍;单一晶粒可存储128Gbits数据. 别指望NAND闪存了.虽然Optane芯片和其它电阻式存储技术在市场崭露头角可能导致存储级内存取代昂贵的DRAM适用许多应用程序,但它不会便宜太久.这就给持续NAND闪存的发展留了门. 进入3D NAND闪存时代,三星,英特尔/美光,东芝和其它厂商始终认为容量

《大数据存储:MongoDB实战指南》一1.3 大数据与云计算

1.3 大数据与云计算 大数据存储:MongoDB实战指南从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分.大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构.它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理,也就说大数据就像做饭用的一堆原材料,云计算就像做饭用的工具.云计算解决了大数据的运算工具问题,而对大数据的存储我们需要相应的云存储工具.云存储是在云计算概念上延伸和发展出来的一个新的概念,是指通过集群应用或分布式文件系统等功能,将网络中大量的存储设备通

数据存储指南之存储备份技术

备份|数据 数据存储备份技术一般包含硬件技术及软件技术等,硬件技术主要是磁带机技术,软件技术主要是通用和专用备份软件技术等. 磁带机技术: 无论是硬盘技术,还是光盘技术,都不适合用来进行数据存储备份,只有磁带机技术才真正适合数据存储备份领域.事实上,磁带机技术长期以来一直是首选的唯一的数据存储备份技术,因为磁带介质不仅能提供高容量.高可靠性以及可管理性,而且价格比光盘.磁盘媒体便宜很多. 作为一种备份设备,磁带机技术也在不断发展.当前市场上的磁带机,按其记录方式来分,可归纳为二大类:一类是数据流

简化数据存储技术并不简单

如今,全闪存阵列和超融合存储已成为两种难以简化数据存储技术的技术. 人们曾经认为数据存储是一种简单的技术,具有相当逻辑的替代方案.然而,有很多人表示现在查看当前的数据存储环境,不知道这些东西为什么变得这么复杂. 行业专家曾表示,在数据存储世界中,可以选择的方案在过去几年中急剧增长,但却有更多试图解决的存储问题.各种数据存储技术从媒体到阵列设计,以软件为中心的方法到全新的架构.新的数据存储场景将变得更加复杂,进一步强调存储的演变是一个真正的好消息. 人们有选择是很好的,这是一个好消息.但是太多的选

海量冷数据存储关键技术

近年来,移动互联网.物联网.云计算的快速发展催生并积累了大量的用户.业务数据.据市场调研机构IDC预计,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB.据统计,这些海量数据中只有10%~15%的数据是被经常访问的,而绝大部分都会在产生之后逐渐变冷.这些"冷数据"的访问率虽然很低,但用户还是希望保留这些数据,对于企业而言,还有很多数据需要进行备份和存档. 且不管数据的冷热及其冗余备份,如果将这40ZB的数据都使用目前已量产的最大容量蓝光盘来存储,按照

数据存储技术取得突破,存储数据需“开源”更需“节流”

日前,IBM研究团队成功地通过"孤立原子"(solitary atom)的方式创造出了全世界最小的磁体.具体的思路是,现有的数据存储技术及硬盘在存储数据时,大多需通过磁头磁化磁层上的介质,每存储1bit数据大约需要10万粒原子,而IBM通过"孤立原子"的方式,使数据存储的硬盘体积缩小了1000倍. 对此,该团队在<自然>(Nature)杂志上发文称,这一突破将为人类带来令人兴奋的全新数据存储系统. 如今,移动计算和云计算飞速发展,全球数据量随之猛增.数据

走在数据中心能源危机前面:推荐MAID技术

能源效率最近受到了极大的关注.一些人认为这是一件很好的"绿色"事情.有些人明白这能获得很大的金融好处.但是,对于存储和网络行业的人们来说,这是一件更紧迫的事情.我们正处在能源危机的边缘.这个危机将从根本上影响我们专业人员的生活. 考虑一下这些问题: ·据美国环保局最近的报告称,数据中心每年的能源消费量占整个美国能源消费量的1.5%以上. ·IDC报告称,数据中心每年的电费超过了33亿美元. ·数据中心的冷却成本现在已经超过了租赁数据中心场地的成本.例如,一个10万平方英尺的数据中心每年

Uber是如何使用MySQL设计可扩展性数据存储的?

在Mezzanine项目中我们描述了我们是如何将Uber的核心行程数据从单个的Postgres节点迁移到Schemaless,这是我们开发的一个容错性很高.可用的数据存储. 根据Uber工程师的习惯使用MySQL设计的数据存储,使我们可以从2014 扩容到更高.本文分成三部分对Schemaless进行阐述. 一.Schemaless的总体设计   这一部分我们将讲述Schemaless的架构它在Uber基础结构中的角色以及他是如何成为该角色的. 1.我们对新数据库的迫切需求 2014年初,由于出