“我们看现在的Facebook,全球用户数量正在逼近10亿,中国的新浪微博注册用户数量也已经破3亿,腾讯的即时通讯工具活跃用户达到7.1亿,仅次于中国和印度的人口数字。而Pinterest等正在快速成长的图片社交网站正在为互联网带来新的数据流和海量的图片。仅社交网络这一项所产生的数据就已经非常惊人。”世纪互联李志霄博士在谈到大数据时代时提出,“用数据爆炸形容今天的IT发展一点也不为过,数据增长永无止境。”
根据国际数据公司IDC 2011年发布的Digital Universe Study,全球信息总量每过两年,就会增长一倍。仅在2011年,全球被创建和被复制的数据总量为1.8ZB(1.8万亿GB)。相较2010年同期上涨超过1ZB,到2020年这一数值将增长到35ZB。
社交网络仅仅是1.8泽塔数据中的一部分,电子商务、政企、互联网和个人云端数据存储也在增加。传统的结构化数据向非结构化发展,随着互联网参与人群与互联网应用的增长,数据也在呈现越来越多样化的形态。视频、语音、文本、图片等传统单一介质的存储方式已经被打乱,取而代之的是更具交互性的数据,个体用户或者消费者在其中的贡献不可忽视。同时,宽带、无线通信、云计算的发展使我们的网速变得更快,获取数据随手可得,也推动了大数据的进一步繁荣。企业管理下的非结构化数据数量呈几何级增长,并且增速还在加快。考虑到如何合理保存和利用这些数据,企业IT所面临的压力不言而喻。
对此,世纪互联李志霄博士提出企业处理大数据可以从三个维度考虑,即大数据的挖掘、存储、迁移。
1、数据挖掘
在云中,数据散落分布于不同的物理机上,Hadoop等大数据挖掘工具在其中起到指针的作用,根据对信息内容的需求指向信息存储的空间,形成数据仓库。所有数据仓库的集合都存在于云数据中心的资源池中。根据实际需求选择数据挖掘工具,定义数据需求是CIO的首要任务。
2、数据存储
当企业数据存储于云端或者物理服务中,就需要对数据进行物理位置、查询、处理、删改等数据存储管理。每一次数据调用和存储,都需要企业为之付出相应的成本,包括电力、设备、带宽、计算能力等等。以数据云化和IT服务外包的方式能够降低单次访问成本,通过数据中心能效提升等方式,帮助企业IT降低整体费用。而数据读取过程提速、冗余数据处理等升级管理则将最大限度提升企业IT效率。
3、数据迁移
云迁移(穿梭,穿越)是个艰难的任务,需要专门的工具或服务团队。因为没有接口标准,用户必须先选好目标云。而今天云计算的一个大短板就是部署运维,客户群不具备这个能力,而现有的SI也大多停留在传统部署的层次。因此数据迁移对企业未来业务迁移所面临的一大挑战。选择具备云迁移能力云数据中心服务商可以帮助企业实现从传统数据中心向云平台部署的转换。