近期,有人给“大数据热”泼了盆冷水,暗示当前被人们称为“大数据”的东西可能并不靠谱。发布相关言论的人,还真不是隔岸观火的“假行家”,他是美国知名">的大数据分析公司Ayasdi的联合创始人兼CEO Gurjeet Singht。
他指出,从查询开始分析数据本身就是一个死胡同。研究人员目前只是从收集到的数据中提取1%进行分析和提取见解,而这1%被分析的数据却能支配企业的革新和形成见解,并被人们称为“大数据”。
Gurjeet Singht的这番言论,不得不让我们反思,当前的“大数据热”和在这股热浪中不断被各类机构高估的“大数据分析”是不是有点“虚火”太旺。
Gurjeet Singht的论点并非没有依据。数字宇宙的规模在近两年内确实出现了翻倍增长的情况,面对这种爆炸式的增长,科技发展的速度与数据宇宙的发展速度其实并不匹配。根据IDC最近的报告,当前人们每天可以收集的数据约1qB,数字宇宙的规模已经达到了2.8ZB的数据量。IDC预计,到2020年数字宇宙的规模将高达40ZB。移动技术、传感技术的发展,让人们采集数据的能力不断增强,但识别数据的技术发展速度却没那么乐观。比如,在当前数据宇宙中很多有价值的数据,都是基于文档的未被标记的非结构化数据,人们对这类数据的识别、处理技术的研究刚刚起步。但市场中所谓成熟的大数据分析方法,却普遍是基于有效数据标识来采集用于分析的数据。根据这种方法,有些数据因为无法识别所以不能被标记,因而不能被视为有效数据,在用于分析前,它们就会被抛弃。这一问题导致大量有价值的数据就这样丢失了,完全没有被利用。
大数据对企业的价值,在于通过分析提取见解。如果这种“见解”仅来源于对低于5%的有价值数据的分析,分析方法只是某些“科学家”的预判,企业还要依据这样的见解“做生意”,这样的“大数据”难道不是灾难吗?
美国的私人数据分析服务提供商的估值已被推高到数十亿美元。几天前,美国旅游行业也刮起 “怪风”,一些完全不知道大数据为何物的初创企业,正在凭大数据概念圈钱,而且效果还不错。大数据刚刚蹒跚学步,就有人判断其未来一定能成为“总统”,并已经为他拉起了选票。在数据分析技术还极不成熟的今天,资本市场对大数据相关企业的过度狂热,无疑是个危险的信号。