随着高清摄像机的快速普及和推广,数据呈现爆发式增长,而相关法律的出台(如《中华人民共和国反恐怖主义法》和《关于人民法院诉讼档案保管期限的规定》规定资料长周期保存)又成为有力的市场推手,加速了数据的暴增程度,对海量存储空间的需求为存储厂商带来了前所未有的良好机遇。目前物理介质存储器在存储密度、体积和成本的平衡方面已经达到瓶颈,传统的企业存储策略已无法跟上企业数据迅猛增长的节奏。数据存储技术有什么突破?我们真的需要将所有的数据都永久保存吗?或许对于数据存储,人类要做的不只是技术上的“开源”。
一、数据存储方式多样,全球数据量逐年递增
在数据量快速增长的背景下,容易生出一个疑问:这么多的数据,究竟都被存放在何处?其实回归本质看这个问题,答案非常简单,那就是“硬盘”。依此类推可知,庞大的数据的存储自然需要非常多的硬盘。比如谷歌,其早些年的数据中心就已经拥有上万块硬盘,如果按1TB(terabajt,太)的标准计量,能够达到10PB(petabajt,拍)的数量级,用于一般存储可以说绰绰有余。
而在国内,像百度云等数据存储服务则开创了10Gb TOR交换机、SSD(自制固态硬盘)等用于大规模数据存储的技术。但当数据量开始变得庞大,就需要以服务器作为主要存储方式。
服务器能够存储数据、处理数据。通过网络协议,使人们在客户端快速获取存储其中的数据,用户也可以上传文件。在上传和下载的过程中,形成了互联网频繁的数据交换,其外在体现是我们经常在一些科幻影视剧中看到的信号灯疯狂闪烁的画面。
当需要存储的数据越来越庞大时,增加硬盘、服务器和带宽都需要非常高的成本。因而对于更庞大数据的存储和处理,需要数据中心作为辅助。
在上图中,每个柜子中的每一排都插入了大约20~40台机器,整个数据中心就由成千上万台这样联网在一起的机器构成。不一定有硬盘,但一定有处理器和内存。其中的硬盘每天都会有人工进行置换,由于硬盘时常损坏,所以每份数据大概会在不同的机器中至少备份三份。数据中心的地点通常在地皮、水电、制冷价格较低的郊区。
这样的技术投资自然更大,但也视情况而定。像BAT这样的巨头用户基数和数据体量极为庞大,相关产品众多,投资自然也随之增加。而一些小厂商没有庞大的数据,对数据存储方面的投入自然也少一些。
然而,全球数据量庞大已成趋势。据IDC公布的调查数据显示,未来全球数据将维持50%左右的增长率,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国将达到8.6ZB,占全球的21%。
随之而来的是大数据市场的繁盛,根据中国信息产业研究院的数据显示,去年中国大数据市场规模约为116亿元,同比增长38%,未来将以40%左右的规模高速增长。数据量的飞速增长及市场的繁盛,需要存储技术的支撑。
二、存储技术取得突破,但短期内不能实现商用
目前常用的数据存储方式有DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,局域网络存储)等。然而面对数据量的一再庞大,缩小存储介质的体积以减少占地及投入成为了重中之重。
在IBM此次研发的“孤立原子”存储方式中,运用了曾获诺贝尔奖的STM(scanning tunneling microscopes,扫描穿隧式显微镜),并与Holmium(钬原子)技术相配合,用以创造并监控这一磁体,而之后的数据读写操作则借助电流完成。此技术能极大缩减存储介质体积,意味着人们能将3500万首歌曲大小的文件存储在一个信用卡大小的硬盘中。
其实,IBM可以算得上是数据存储技术的先驱企业之一。早在1956年就研制出了世界上第一台计算机硬盘驱动器“IBM305RAMAC”。1991年,IBM推出首款采用感应式薄胶片磁阻磁头的磁盘“0663Corsair”。
不过,IBM于2003年将其数据存储部门出售给日立,结束了在磁盘领域的历程,如今IBM或许会借助新的数据存储技术重回这一领域。但该项目的研究员Chris Lutz表示,这项研究离商用的距离还有数十年。
除了运用了新技术的“孤立原子”方式,近期另一项大热的数据存储技术是利用DNA存储数据。此种技术的优势在于DNA排列极为紧凑,并且不会随时间的推移损坏或发生降解。据统计,4克DNA就能保存人类每年产生的所有数据,并且存储时长大于100年,与传统存储介质相比高出了一个数量级。
然而,与IBM新的数据存储技术一样,DNA存储技术离商用同样有着多年的距离。面对这种状况,除了努力研发和深耕技术之外,或许更应该想想:我们真的需要保存全部的数据吗?显然不是。因此,在不断研发和提升存储技术的同时,对于数据的存储量也应该适当地采取一些控制措施。
三、数据存储不能只顾“开源”,“节流”同样重要
Intel的创始人Gordon Moore曾说:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。此定律揭示了信息技术进步的速度,即著名的“摩尔定律”。
这一定律在数据存储领域同样可被借鉴。信息技术不断进步,闪存、磁盘、数据中心、DNA等各种新的存储技术不断出现。可即便如此,仍难以满足日渐庞大的数据体量的存储需求,加之IoT(物联网)行业的发展,致使数据的体量更为惊人。
不可否认,这些数据中许多都蕴含着价值,但也不能忽视数据的惊人体量。难道到2020年我们要将44ZB的数据全部记录并存储下来吗?显然是天方夜谭。物联网的发展使机器能够自行收集并保存数据,但在这些数据中,真正有价值的其实并不是全部。
比如智能设备所记载的用户数据,交通工具行驶过程中产生的数据,这类数据在当下可用性强,但当个体消失或工具报废之后,余下的数据是总结抑或是弃之不用?这些数据要存储到何时?其中需要多少费用?这些数据的价值与存储它们投入的成本是否可以成正比呢?
事实上,在这类数据中,人们只看一次的比例超过90%。因此在这个每天产生大量数据的时代,要学会优先提炼重要数据,对于边缘化的数据应适当摒弃。在数据的存储和摒弃之间找到一个平衡点,能够使数据产生更高的价值。
在信息高速发展的时代,大数据的作用愈发重要。一方面,人类在努力“开源”,研发新的数据存储技术,以便适应大数据时代的发展。但另一方面,“节流”同样重要。分清主次,找到数据存储价值的最高点,有助于提升效率,节省投入,更好地推动大数据时代的进一步发展。
原文发布时间为:2017年3月15日