近来,无数专家和媒体频繁提到“大数据”时代已经来临,那么到底什么是大数据,仅从字面来理解,大数据的主要特点就是“大”:除了以往传统方法获取的数据外,新的数据来源层出不穷源源不断,形成一个随时间变化的巨大数据流。这股数据流摧毁了当前的数据监测和研究行业,也彻底颠覆了人们的理解和想象。
大数据何以如此之“大”?其“大”到底从何而来?要回答这个问题,首先需要了解数据的来源,这里所提到的数据,出于企业营销的角度,我们暂且狭义地理解为消费者的行为数据。以往此类数据的获取大致有以下几种途径:一是根据产品的销量及其分布特征来了解;二是采用问卷调查的方法去获取消费者的行为及态度意见等;三是通过观察或访谈去获取消费者行为数据。总而言之,在以往获取数据的方法中,研究者占据主动位置,消费者比较被动。
然而在大数据时代,消费者已经主动或者不自觉地把自己的行为信息以数据方式留在某处,新媒体技术无时无刻不在悄悄记录我们的行为信息,这些信息所形成的数据只等待有心人来收集、分析和研判。所以在一定程度上,大数据时代最主要的数据获取方法是通过新技术手段进行的悄无声息的观察和记录,而通过这种方式获取的信息总量,要远大于传统方法收集的消费者数据。同时在此过程中,消费者更加主动(虽然自己可能并未察觉),而研究者则被动接收。
大数据时代得以形成,有赖于新媒体的飞速发展,比如微博每天产生的数据内容,就远远大于以往研究产生的数据。我们可以通过某个人的微博内容分析,去尝试了解这个人的基本人口特征,以及其价值观、消费观等,甚至可以在其个人微博中发现此人关注的各类品牌信息,以及对各品牌所持有的态度,所以大数据的价值是显而易见的。
上述内容还仅仅是横向数据总量的不断丰富和扩大,除此之外,数据的纵向拓展也成就了大数据时代。我们可以把以往的调查或观察数据看作是一个横截面的研究,每个消费者对应一系列数据点,这样两个坐标轴共同构筑了一幅二维平面图。但是在新媒体时代,消费者每时每刻的行为信息均加上了一个新的时间坐标轴,把原来的二维平面变成了一个三维空间,这个三维空间的数据总量肯定远远大于原来的二维空间,这也是新媒体导致大数据时代到来的证明。
中国古时以“羊大”为美,今天以数据量“大”就是“好”吗?恐怕事实并非如此。这就好比大海捞针,如果你知道针掉下去的位置以及海水的流动方向,那么在这个范围内经过测算再去捞针显然更靠谱,它远比从整个大海中一点点搜索要更高效。大数据时代也是如此,我们真正需要的其实并不是大数据本身,而是这个大数据背后隐藏的我们想要获取的情报性信息,而这样的信息可能只占总体的万分之一,我们需要的只是这万分之一,其他大量信息对我们而言都是垃圾。从这个角度出发,数据量越大,其中垃圾信息也就越多,这些令人眼花缭乱的垃圾信息,把我们真正想要的信息给深深地埋在数据洪流之中。
这就是今天舆情监测行业面临的困境,笔者见过无数的舆情监测服务商,得意洋洋地夸口自己可以监测海量的信息来源,以及每天或每分钟可以抓取无比庞大的信息内容,更有一些舆情监测机构开始竞争谁的监测覆盖面更广等。而这恰恰是舆情监测的误区之一,在对以往舆情信息来源毫无了解的情况下,未经前期调研规划的舆情监测,获取的信息量越大,得到的垃圾信息就越多。
所以舆情监测并不是想当然的那么简单,它需要经历监测源的调研规划、监测源的管理及权重赋值、监测信息及其属性的抓取、舆情数据的分析挖掘和研判、舆情应对策略建议及应对效果评估这样一个系列的流程环节,而不仅仅是要求抓取的信息量越大越好。在这样的流程体系中,舆情监测源的前期调研规划作为第一环节显得尤其重要,它直接决定着数据获取的速率以及抓取信息的有效性、可用性。所以不同的舆情监测项目,其监测范围应该有所不同。
大数据时代的到来带给我们的另一个启示是,舆情监测业务之间的合作应该大于竞争。假设企业A在做舆情监测,企业B也在做舆情监测,如果两家监测能够按上述所言做好前期调研规划,那么两者所获取的监测内容重合度应该比较低,所以两者之间并不存在激烈的竞争关系。相反,如果企业A、企业B、企业C……多家企业把监测获取的信息内容数据库联合起来,则形成了一个比较完整的行业数据库。换一种思路来理解,也就是说如果多家企业可以联合建立一个共享的舆情监测内容数据库,每家企业从中筛选过滤出自己所需内容即可,这样既降低了成本,又提高了精确性,其多方共赢的优势就能显现出来。
大数据时代显然给我们带来不少便利之处,但是在盲目的欢呼和一时的激动之后,我们更需要认真反思如何正确挖掘出大数据的最大效用,以便我们在大数据的海洋里游刃有余,而不是被大数据洪流冲击得迷失了方向。
(相关专题见11版)