在当今数据呈爆炸式增长的数字经济时代,未来全球数据总量年增长率将维持在50%左右,到2020年,全球数据总量将达到40ZB。根据思科发布的第六次年度云产业调研报告:预测到2020年云数据中心流量将从2015年的每年3.9ZB增长至每年14.1ZB(1ZB等于10000亿GB),传统数据中心流量将从2015年的每年827EB增长至每年1.3ZB,这说明全球数据基本都来自于数据中心,每年数据中心的流量几乎每年都接近翻倍。如此高速增长的信息数据需要传输、存储和计算,将需要大量的资源。为了保证这些数据得到有效处理,就需要不断扩大数据中心的基础建设规模,以满足数据量高速增长的需求。一时间,数据中心建设在规模和速度上都不断创历史新高。这缘于人们对数据的认识已经发生了根本性变革,数据已经从过去的服务于业务运营,转变为现在的推动业务发展,通过大力发展数据,就能增强自己的业务水平。说白了一句话,就是“数据就是金钱”,谁掌握了数据,谁就掌握了财富。
现在全球进入了信息化时代,其显著特征就是信息资源的极大丰富和极易获得,相对于很多主体的信息需求而言,现在的信息供给是无限的,各种现代信息技术极大地增加了信息的数量。比如:应用程序、设备与数据类型等不断地增加,再加上物联网的应用,各种遥感遥测信息,使得数据量高速增长。还有就是高速的网络可以使得多媒体信息极为迅速地传递,超本文链接技术和检索技术也可以使人们轻而易举地得到自己想要的大量信息。信息技术使各种信息活动的全球化成为可能,而且在速度、数量、质量、互动、成本等方面具有很大优势,只要接入互联网,就可以轻而易举地在全球范围接收、发送与交流各种信息,这些都使得数据量在快速增长。虽然数据量的高速增长一定程度上说明社会的信息化程度越高,全球进入了成熟的信息化社会,每个人的工作和生活都与很多数据信息密切相关,可是数据越多也不见得都是好事。数据量太大也会带来很多问题,海量的数据已经给数据中心带来了沉重负担。数据中心建设和扩容的速度永远也无法满足数据量增长的速度,在数据中心里海量数据成灾,数据中心已经没有更多的存储设备来保存这些数据,没有更多的服务器可以处理这些数据,也没有网络带宽去传递这些数据,海量的数据让数据中心不堪重负。
对这些海量数据进行分析,其实不难发现,很多是重复和无价值的数据,这样还是有些办法可以去削减的。首先,减少重复数据的存在。数据中心里每个人都可以有自己独立的存储空间,就像个人邮箱,每个邮箱允许有几十G的空间,很多人往里存储的东西,尤其是视频文件可能是相同的,但数据中心依然要存储多份,这样极其浪费存储资源。对于同一个视频文件,完全可以每个人空间内只保存一个索引,只有一份视频文件即可。如此一个几个G的视频文件,保存一份即可,也许数百个人甚至数千个人都可以使用,其实只占用一份文件的存储空间;其次,减少无用数据的存在。一般而言,数据中心里90%都属于无用数据,因此需要过滤出能为数据中心提供经济利益的可用数据。大数据技术很火,但利用大数据技术能得出有意义的结果,也是要对有特有特征的数据进行统计才有可能得到预期结果。如果数据本身都没有多大意义,自然也不会有大数据技术的发挥空间。无用的数据包括长期无人访问的数据、过时的数据、错误的数据等等,只要对数据中心业务发展无益的数据都可以及时清理,删除;第三,减少中间过程数据。1+1=2我们只需要知道这个计算结果,而不需要知道这个中间计算过程,中间过程有大量的数据,这些数据对我们得到结果没有意义,所以只要计算完 1+1,得到了2就可以将中间数据删除了,如此可以大大减少中间过程的数据量。还有很多大量存储着的临时信息,几乎不存在投入必要,这些临时信息基本不会被使用;第四,减少与数据中心应用无关数据。在数据中心充斥着许多无用的信息与数据,有的数据看似非常重要,其实是一点作用都没有,对数据中心发展毫无意义。就像我们用的手机,使用一段时间就会残留大量的临时文件,无用的聊天信息,占据着手机大量存储空间,同时也降低了手机的运行速度,及时清理掉这些无关数据,可以节约存储空间,提升手机运行速度。对于数据中心也同样如此,周期性地对数据进行检查,无用的数据及时清空,将资源分配到有效的数据处理中去。最后就是从数据中心外部接入到内部的网络数据,这类数据价值极低,几乎不会给数据中心带来正面影响,这类数据也不要保存,及时清理。
海量的数据与信息已经成为数据中心的垃圾,大部分的数据都是无用的,这些数据不仅无用反而会阻碍数据中心的发展。越是信息发达的时代,我们就越是需要用挑剔的眼光去看待那些围绕自己的数据。对数据用减法甚至用除法的方式去挑挑拣拣,避免数据泛滥成灾。避免数据中心的各种宝贵资源被混乱的数据所侵占,被“恶意”数据误导,时常给数据中心减减负,清除各类无用的数据,对数据一定要求质不求量,坚决消除一切无用数据,将数据中心的资源用到更有用的地方。当看到全球信息数据在高速增长时,请一定注意,小心你的数据中心里数据泛滥成灾。
本文转自d1net(转载)