大数据以其“浅显易懂”的概念和预想中的巨大应用前景,成为了继云计算、物联网之后信息技术领域的又一热点。但在各界的加倍关注中,国内大数据领域的明显进展未现,却已经显示出或多或少的“泡沫”。借大数据之名圈钱圈地或进行重复建设的苗头已然出现。这种情况下,需要深化对大数据内涵与特征的认识。基于对大数据的跟踪研究,赛迪智库认为,可重点从四个方面进行认识和把握。
大数据发展的重点在于对数据对象的分析与应用
曾听到专家对某地方政府领导建言,建设大规模的数据中心,备份存储用户的数据,就是发展大数据产业;也有机构提出发展大数据必须重点加强基础设施建设。这些观点都偏离了大数据的本意,也会将大数据发展引向歧途。
从根本上看,“大数据”并非一个科学、严格的概念,它来自于对数据规模的爆炸性增长这一现象的归纳。但在“海量数据”、“大规模数据”等概念已经存在的前提下,之所以还要提出新的概念,就是因为既有概念只着眼于数据规模本身,未能充分反映数据爆炸大背景下的数据处理与应用需求。而“大数据”这一概念所以能够引发共识,成为当前热点,就在于各个行业领域具有了对大数据分析和利用的巨大现实需求和具体应用需求。所以说,大数据的内涵,不仅指规模超出传统技术处理能力的静态的数据对象,又包含着对这些数据对象的动态的处理和应用活动。
若再考察数据的生命周期,从数据生成、数据传输、数据采集,到数据处理、数据分析、数据应用,会涉及多个环节和若干层面,但就大数据而言,其重点不在于对数据的传输、收集、存储,而是重在对数据的分析挖掘,并由此获得凭直觉难以发现的有用信息。惟有将重点放在数据的分析挖掘与应用上,才能最大程度地实现大数据的真正价值,也惟有分析与应用才是大数据及大数据产业发展的重中之重。也因此,我们认为以分析处理为主要内容的大数据服务将是大数据发展的核心。
大数据对象的重点在于获取与使用
若仅就大数据内涵中所涉及的数据对象而言,有些观点认为,必须下大力气做好源数据集合的建设。这种观点,有道理,但也不完全正确。例如,要想运用大数据手段实现智能交通,需要有城市的道路规划、车辆、停车场等数据,这些数据多由政府部门所掌握,对相应数据库确实需要加强建设。但是,要想根据实际情况实时、灵活地管理交通,实现有效运行,仅靠以上数据远远不够,还必须随时跟踪和整理道路流量数据、停车场容量数据、天气数据、道路事故信息等,而这些数据,不仅会来自于包括交管等部门,还能够通过微博、微信等渠道获取,甚至很多时候微博上的信息比管理部门的数据要更加迅速。那么众所周知,微博等信息源是开放式的,任何部门都无法“拥有”这些数据,惟一能做的就是尽力抓取、尽快收集整理。若是多分析几个类似的事例就会发现,在处理突发事件的应用需求之下,实时出现和获取的动态数据要比通常数据库中的静态数据更有价值,微博、搜索引擎等公开来源的数据也往往比数据使用部门(如上述例子中的交管部门)所掌握的内部数据更有价值。
因此,对于大数据所涉及的数据对象,必须分类对待。对政府部门、公共服务机构、企业等所掌握和持续更新的数据,需要加强建设,作为数据应用的基础。但同时,必须重视微博、微信、社交网络、搜索引擎等新兴数据源,做好对相关数据的跟踪、抓取、整理和应用。
大数据作用的重点在于启发与辅助决策
IBM最近提出了大数据的又一特征,真实与准确。但客观来看,这一特征还有待商榷。事实上,虽然大数据应用的目标和理想结果,是通过对大数据对象的分析挖掘,发现新的知识规则和新的有用信息,但是对于由计算机完成的大数据分析处理,不应也不能苛求其分析结果的完全准确,乃至于对于大数据所涉及的源数据对象,也无法要求其真实准确。
从源数据对象看,会包括微博数据、社交网络数据、搜索引擎数据等,由于各种原因,数据中不可避免的会包括各种错误数据、无用数据。即使通过一定的数据清洗、数据过滤手段,也无法完全确保其真实性和正确性。但大数据的价值本来就在于从纷繁复杂的数据对象中发现有用的信息,去芜存真本就是其要完成的过程性工作之一。所以,真实、准确只是一个相对的概念,要向之努力,但不能强求。
从分析结果看,大数据分析处理所要求的只是发现能够反映一定相关性的知识规则,而非完成数学公式或逻辑的推演。类似最经典的尿布与啤酒的例子,在其关联规则发现之初,只是知道其然而不知道其所以然的。所以说,大数据所完成的是规则的发现,而非规则的论证。它对研究人员、对决策者的价值,在于能够引导和启发大数据应用者的创新思维,辅助决策。简单点说,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将问题解决的思路拓展了三倍。
不应过分渲染大数据的信息安全问题
大数据的应用与信息资源相关、与信息技术相关,所以必然会牵涉到信息安全问题。但是,不能将信息安全问题渲染过大。
一是不能无中生有造出所谓的安全问题。例如,有观点提出,要保护所有大数据相关源数据集合的安全。但例如前面所列举的微博、社交网络等数据源,本来就是开放式的,是所有人都可以看到并且获取,其安全性无须保护也无法保护。
二是不能将常规信息安全问题说成是大数据带来的问题。例如,政府部门数据资源的保护,是一个普遍性的问题,即使没有大数据的应用也依然存在,即使有了大数据的应用也不一定会被放大。所以,不能轻易说大数据会带来新的信息安全问题。
事实上,大数据时代面临的最大信息安全问题,是如何防止被对手运用大数据手段从己方不小心透露的众多细微信息中分析出重要乃至秘密的信息。而防范这一点,却恰恰不属于大数据应用的范畴了。
(责任编辑:蒙遗善)