近来,云计算把多数人搞得晕头转向,还没完全消化吸收。大数据又来占领新概念的制高点,有点你争我抢的意思。我们不谈云计算,今天就说大数据。大数据的道理其实并不复杂,就当前我们谈到的大数据,主要是指随着PC数量以及手机、PDA或者各种信息采集设备的增加(比如路上的交通视频监控,商场的POS机或者各种射频识别设备),这样就出现两种情况,一种是数据量增大,而且是呈几何级数增加。另一种是非结构化数据很多,比如彩信,博客评论,日志,聊天记录等,因为这些信息中可能有用数据较少,或者短期有用信息少(相关内容以后会有专门文章论述)。所以大数据的问题是两个,第一是如何存储这么多的数据,第二是如何开发利用这些数据为企业或者组织服务。
最近,有幸采访到国家统计局数据管理处处长梁达敏先生,他向我们介绍了统计局目前的状态。就统计局而言,一方面,社会对我们的数据要求越来越大,也越来越细,必然有挑战。另一面,数据采集手段(如各种传感器的物联、移动设备等)和数据存储手段(高速网络、云存储等)的快速发展,给统计工作提供了机遇。
统计局的数据分成几级,从最初的基层企业到主管部门,再到地方政府,然后上报国家统计局。而这一过程很可能会因为多种原因而出现数据误差,所以现在统计局的下一个目标是减少整个上报流程,让环节减少,这样上报的时间也会变短,提高效率的同时也增加的数据的可靠性。当然,这样做后更多的数据就会集中到统计局这里,从信息化的角度来说这样会成为一个数据大集中的问题,过去一层一层的,它的原始数据都是存在各级的统计局,那么省里可能有一些原始数据,那么就是一个汇总的数据上来,所以国家局对很多数据很难控制。现在我们就把企业端直接报送到国家局这一块,这样的话就从业务上提高数据的准确性,那么从IT上面就涉及到数据大存储的问题。那么在解决这个问题上我们有两个想法,第一肯定是立项要建一个这样大的这种存储中心,异地备份中心这样一个机构,那么现在我们还是很务实的,我们现在只是大家对统计局有了解的人知道,统计局是分好几个地区办公的,那我们只先做一个简单的这样一个同城异地的简单备份,这是目前在做的一个事情。
这其中我们会首先理清社会对数据的需求,按数据的使用需求,梳理清楚数据的“分级”,规划好数据的在线、近线和离线;第二、有良好的数据开发能力。这是我们的工作重点重点。
然后第二个事情我们现在有一个考虑,就是利用这样一个外包的方式,就是利用公共的资源,首先要保证安全这是肯定的,这个信息的数据的安全,其实很多我不知道在座多少是企业多少是政府的,在政府很多人用这个理由就是说不行我的数据必须是独立建设这样的中心也好,备份中心也好,为什么?因为我的数据涉及到保密问题,就是如果有这样国家有关部门认证的有关部门我们是不是可以去利用?这样是对整个资源的一个节省,就是减少我们投资。
当然这样就存在安全的问题,因为安全和发展永远是一对矛盾。无论安全与否,无论数据或大或小,数据业务总是要做的,安全跟上就行。核心的机密的数据,不会有那么大的量,而且可以分离存储。把所有数据混为一谈,是敷衍搪塞。另外,建立有安全认证资质的、企业运营的云中心,是必要的也是可行的,技术安全和基础设施安全会作的更好,服务起码与自管相当,觉得这种方式有危险是我们的思想在作怪,需要慢慢改变。
总结来说,大数据时代肯定会到来,我们好好规划,好好利用先进的手段,希望统计局的数据能更加及时准确的反应各方面的情况,更好得服务人民大众。
(责任编辑:蒙遗善)