闺蜜安琪是百度头号帅哥李彦宏的粉丝,听闻李帅哥近期给中央高层讲大数据,这位文艺女青年决心搞清楚“大数据”究竟有什么用处。本人引经据典多次讲解,她仍瞪着无辜的大眼睛忽闪忽闪。突然,想起前几日她向我哭诉和婆婆相处的二三事,顿时计上心来,决定开历史先河,用婆媳关系翻译一下大数据。
大家看到“大数据”三个字,就会被“大”吓住,以为必然要超级大超级多才可以,其实大数据是一种思维,这种思维的第一个特征不是“大”,而是“全”。比如,我用新浪微博的数据分析2013年前11个月的婆媳关系之“口碑”,输入关键词“婆婆+媳妇”,出来1946905条微博内容。它对我而言,首要的意义不是这个数字多大,而是这个数据是全的,并非是抽样或者部分。
通过一定的词频统计和分析,庞大的总数据中发现了关于婆媳关系很重要的一些奥秘。这些奥秘,恰恰是安琪们在和婆婆相处时屡屡踩中的雷区:不当撒娇;向婆婆诉苦;和婆婆吵架。这几大雷区的分析,用的是大数据思维的第二个特征,就是从数据中寻求各种相关关系。撒娇,不是婆媳关系不良的主要原因,但是会引发婆媳关系微妙的变化。这种相关关系的逻辑是,一个变强另外一个就会变强,但是一个变弱,另外一个几乎不会有什么变化。这和前后密切关联的因果关系有巨大的不同。
国外大数据研究的先河之作《大数据时代》中,作者维克托·迈尔·舍恩伯格的最具洞见之处就是,他明确指出大数据时代最大的转变就是:放弃对因果关系的渴求,取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”,这就颠覆了长久以来人类的思维惯例。
另外,通过数据洞察有一个有趣的发现。2013年前11个月,提及“婆婆+房子”的微博仅有785条,但是,提及“丈母娘+房子”的微博有463691条。
由此可见,婆媳关系中的房子并非是关注焦点,同时可预见丈母娘对中国房地产市场有着潜在的推动作用,远甚于婆婆。与之印证的是,安徽一家房地产商曾打出口号:“你可以不买房,除非你摆平丈母娘”。在这里,讲述的是大数据思维的另外一个特征,就是可预见性。大数据的预测分析,可谓是大数据的最高境界,也是众多数据分析人士的终极梦想。
维克托指出,世界的本质是数据。就像安琪可以依据大数据的分析结果改善自己的婆媳关系。在大数据时代下,经济学、政治学、社会学和许多科学门类都有可能发生巨大甚至本质的变化,进而影响人类的价值体系、知识体系和生活方式。
遗憾的是,这两年来大数据的概念炙手可热,但是,真正的大数据是怎么回事,很多人心里都含糊。2013年9月,着名信息技术分析公司Gartner发布《2013年大数据普及程度背后的炒作》报告,指出2013年30%的企业已开始大数据工作,另外34%的企业计划在两年内开始。但这些企业大多告诉调查者,不知道自己在做什么,也不知道为什么要做大数据工作。根据这一报告,半数以上企业不知道如何从数据中获取价值;三分之一的企业缺乏大数据处理能力;甚至还有超过五分之一的公司不知大数据究竟为何物。
另有研究发现,整体来看,国内大数据的发展要落后国外一年半左右,且泡沫更多。目前,国内的一些大数据企业发展与国外大数据企业早期的创业阶段相似,在硬技术方面和数据采集方面比较欠缺。国内的大数据企业多集中在行业应用分析方向,主要为决策咨询、搜索推荐、预测、可视化、图像识别、电子商务等。同时国内大数据企业还有一个隐忧,就是数据来源比较单一,真正的创造性数据开发渠道非常少。
据前瞻产业研究院《2014-2018年中国大数据产业发展前景与投资战略规划分析报告》中的预测,2012年中国大数据产业市场规模为4.5亿元,初步估算,2013年将达到8亿元。未来几年大数据市场将继续以超过100%的年均复合增长率增长,到2016年,大数据将成为百亿元级的产业。
如果大数据真的即将开始一个新的时代,那么知识普及、数据源开发、技术共享、人才培养等方面,都需要国家从战略层面去支持。9月30日,百度公司CEO李彦宏向中央高层宣讲大数据。他认为大数据在两方面最有价值,一是促进信息消费,加快经济转型升级;二是关注社会民生,带动社会管理创新。李帅哥宣讲大数据,是一个很好的苗头。但是,大数据时代还在渐渐形成中,那未来的辉煌,我们还要静候。