自从舍恩伯格的《大数据时代》畅销以来,“大数据”赢得了难以想象的关注度。但同时,从实务的角度来看又有一点难以落地的感觉。这其中的原因,在于很多公司仍然没有建立起数据的收集到应用的基础设施包括工具和人才配置,尤其是在实战层面上未对大数据有较为客观和理智的认知,吹捧它的人认为它无所不能,在各种场合反复讲解一些高大上的案例,而质疑它的人则认定现有结构化数据就能说明关键问题,从而对其不以为意。事实上,大数据的应用既不便宜,也存在一定的缺陷,更未能充分提升商业的价值,反而大数据其实更需要企业家、产品经理等管理精英们的创造性思维,用数据的力量做出确切的关联和相互参照,使大数据能真确地产生物有所值的商业效应。
不要迷信大数据
几乎每个礼拜,我都要面试很多数据科学家,以及不少从业者。例如,在招聘时,我问应聘者的第一个问题一般都是“在你心里什么是大数据”。回答显示,原来业内的认知分歧丝毫不比外行少——至少有一半受访者或应聘者对“大数据”这个概念根本就不以为然,而是更关注有价值的数据、数据能产生什么价值。换言之,在部分人看来,“大数据”本身就是一个伪概念。我问的第二个问题是,目前为止,你做得最好的大数据案例是什么?他们的回答都有个共同点,就是用大数据来处理数据的稀缺性。比如,北京的空气质量监测站是有限的,其数据对于监测站附近范围的质量呈现是比较准确的,但其余地区的质量数据是非常稀缺的。换言之,大数据能帮我们增加未知部分的准确度、精确度。
有很多人讨论大数据与小数据的关系。其实,这个问题衍生自大数据如何落地。应该说,大数据可以说明商业运营者找到大致的方向,但真正落地到商业操作,反而不如小数据更有用、更有效。比如,很多运营者宣称自己的注册用户是多少量级的,但是1亿个注册用户的基础数据,不如一千万个活跃用户完整的行为数据更具有价值。对于初创企业进行客户探索、发现和验证时,几百个甚至几十个顾客、用户的完整数据比你得到千万级数据更有价值。也许正是因为数据量虽大,但每个数据单元都出现了断裂或遗漏,导致大数据的价值难以被挖掘出来。
因此,应用大数据的能力之一就是把数据变小的本领。在构建数据模型时,你需要的样本其实不是千万,甚至不是面面俱到的数据,而是比较敏感的数据指标。这对数据收集和分析人员是巨大的挑战。实际上,大数据的应用和落地,也要以数据的细分为基础。例如某电商顾客的真实性别就不一定与购物的性别偏向一致;再比如,关键词搜索量,看北京、南京各多少,而不是笼统地说增长了多少。当我们用放大镜细查大数据时,会发现有不少的“断链”和数据欠完整。从某种意义上说,大数据没有真正的全面数据,差别只在于你放大镜的倍数。即使基于大数据进行决策,也仍然有猜测和赌博的成分在其中。所以,我反而主张,大数据和小数据应该可以互为作用,而非比较两者谁更强。
目前,大数据应用里有个怪现象,就是有什么数据就收集什么数据,至于将来有什么用,一概不知,或者抱着“先收集再说,将来总有用”。我的建议是,从问题、愿景导向来收集数据。一方面,数据的收集、存储备份等成本都不低,另一方面,数据的价值也可能衰减。
其次,在我看来,以用户为核心的KPI能实现与客户的行为点对点连通,是未来发展的大趋势。传统的用户价值是以利润贡献为核心指标来衡量的,而在大数据时代,客户关系的管理可能就不一样了。例如,我要知道一个客户一个月内到淘宝多少次,不管他是否购买,要看他与我们公司的关系到底怎么样。同学举行婚礼,礼金重才是好哥们?显然不是这样的。一个礼拜,用户花在视频网站、微博等等的时间是多少。未来竞争的是用户的注意力。在大数据的创新下我们是否可以更容易得知你得到了多少的用户注意力呢。
公司要建立起数据收集系统,更重要的是要建立起跟踪数据质量的监控,而且一些关键数据要寻找多个源头,一方面确保“鸡蛋不在一个篮子”,另一方面要相互比对、印证。对于实际运营的企业来说,数据必须有连贯性,而且要确保数据的真实性,因为如果数据的收集或获取本身就错了,那么后边的分析和决策无疑就建立在沙滩之上,“根基不牢,地动山摇”。
就现状而言,大数据技术更多地用于推荐和营销,不是因为它更容易,而是因为它容错的空间更大。比如,推荐系统给出了顾客不喜欢的推荐,大不了重新推荐,但一旦上升到直接解决问题层面,其容错空间就大大缩小了。例如,利用大数据技术来观测空气质量,错了也不会有大的影响,然而如果把这个指数和某个商业运营挂钩,就不是小事了。更何况如果数据是用在一部无人驾驶的汽车上,不准确地运用数据的后果更是不堪设想。人们很喜欢谈论沃尔玛“啤酒与尿布”的故事,但是其相关性只发生在周五下班后,而且一年后这个关联不再出现了,因此,需要数据部门的不断跟踪,不能一条经验法则走到黑。尤其是对数据的精确性要求较高时,数据的持续跟踪与多源比对就显得非常重要。也正是这个原因,导致大数据的应用还停留在比较肤浅的层次或者压根就飘在空中。
作为创新的赛马场
有人认定大数据具有前景,于是试图利用先前收集的数据开创新的事业或业务,但目前为止我还没有看到特别成功的例子。相对而言,在拥有大数据的公司之内应用大数据比没有大数据的公司可能要容易一些。其优势是,他们对数据比较熟悉,知道其中的数据定义和数据搜集中的难点和局限性,从而比外部合作者用得要好。当然创新是否容易被旧有文化所限制,又另作别论。阿里金融的成功,是在游离母体与靠近母体间找到了一个动态的平衡,克服了外来数据所带来的困扰。例如,产品设计改版使得数据变化了,但数据生产方却未必有告知的义务。因此,数据使用者要监控数据源是否稳定。这也与数据公司的既有文化和业务范畴有关,一家善于构筑堡垒的公司即使有无可比拟的数据资源,很可能宁愿等着数据价值的衰减,也不愿意将其有效利用。
其次,应用大数据开创新业务的能力问题,许多业务运营者可能搜集了大量的数据,但能否挖掘出“原业务”以外的创新性业务,到目前为止仍然是一个巨大的挑战。商业创新有时候表现为不可思议的关联,但总体而言,由于这种突破性的关联带来创新业务的概率是非常小的。
传统企业怎么办
到目前为止,我们在谈论大数据的时候,在根本上忽略了一点,很多企业本身是有其架构的,不会因为大数据就立即变得不一样了。很多公司连信息(information)都未打通,是堵塞、零散的,更不要说大数据的应用了。大数据作为一种新的运营理念和方法体系,要想嵌入到公司里,必然要经历一个新事物在旧公司的所有困难。比如,想要的数据无法采集,很多公司口口声声说“以客户为中心”,但关于客户的数据要回流到公司核心决策里却不容易,其统计口径与企业KPI不一致。这些虽然与今天我们所说的大数据没有关系,是数据化,却是大数据的基础。如果在一家公司里,想要看的数据没搜集,或流动不顺畅,却被大数据所迷惑,那是本末倒置。
但这不是说,传统企业可以对大数据应用置若罔闻。对当下的企业来说,要反躬自问,有没有一些数据,今天不搜集,将来会后悔?如果这些数据被对手搜集到,会怎么样?要做到这一点,就要对公司一年后、两年后或半年内的方向非常清楚,或者至少有个概念。实际上,我们的互联网上充斥很多与企业相关的信息或数据,但未得到足够的重视,这主要是观念问题,而不是能力问题。
今天人们所说的信息技术(IT),其实越来越趋向于数据化,商业智能要把销售数据、营销数据和消费者数据打通,而不是各自孤立。传统企业高管应该重视数据的关联应用,至少不能只满足于财务报告的数据,不要容忍人力资源部连主动离职率与服务水平都关联不起来洞察。要有步骤地构建起数据的搜集系统,培训对数据高度敏感的人员。当然,从一种有效的策略来说,先把既有的数据用好,比盲目推进大数据要明智得多。你要重新定义你的数据框架来解决存在的问题。比如,很多企业都开启了公司微博,其测定效果是转发多少、评论多少。但实际上,你要细分你的数据,进一步厘清谁、什么样的转发和评论才是有价值的,还要和相似的公司微博进行对比。
传统企业究竟是建立起自己的独立的搜集系统,还是使用别人提供的数据?我认为要兼有,既要有侧重地独自搜集,也要多源化地获取数据,尽力排除各种数据在搜集过程中形成的偏差,这既是一个技术问题,需要数据人员付出艰辛的努力,也是一个战略问题,需要回到前文所述的小数据问题。