大数据里的小利器

如今,90%的数据分析师都在谈大数据,在大数据的背景之下,数据分析师收集数据的边界在哪里?又该如何运用数据呢?作者在美国参加Strata 2012大会期间,跟很多数据中人交流,其中前LinkedIn">首席科学家DJ Patil给他的印象最深。

对话:先有需求,后有数据

车品觉:我有一个问题一直很困惑,现在的企业获取数据很容易,并且数据的增长速度非常之快,那么对于公司来说,到底要收集什么数据呢?收集多少数据?收集数据的边界在哪里?

Patil:过去收集数据很难,而现在获取数据资源比较容易。如果收集数据的出发点,不是为了解决问题,那么收集数据的量也太大了。

车品觉:可是许多公司认为,现在收集数据不难,成本也不高,为什么不先收集数据再说呢?等以后需要数据来解决问题时再拿出来用也可以啊。

Patil:千万别这么想,用这样的理念来设计数据产品肯定会失败的。数据是没有边界的,我为此也痛苦了好一段日子。比如收集一个人的生日,可以精确到几分几秒,但怎么用却不知道,那么这个数据就没有什么用。

车品觉:实际上,数据也是有生命周期的,比如从中国身份证号码是可以推断出性别的,但过几年如果这个规则变了,那么这个数据的基础就发生了改变,导致我们基于数据所做的假设和决策依据也就失去了意义(Data Broken)。并且,保存数据及其收集时的背景也不是一件容易的事情。所以说,在收集数据的同时,我们必须知道数据是用来做什么的,今天都想不出来,日后就更不容易想出来了。

打个比方,今天很多电商老板会问重复购买率是多少,于是我们收集数据来计算重复购买率,却很少想到需要重复购买率来做什么决定。“刻舟求剑”的故事告诉我们的是世事在变,我们不能只是机械地套用方法或指标。就像重复购买率有不同的定义,而做不同的决策需要不同定义的重复购买率。如果A公司想收购B公司,那么关注的重复购买率可能细致到3个月内,购买一次的用户比例是多少,购买2~3次的用户比例是多少,3~4次的用户比例又是多少。如果A公司只是衡量自己的运营,可能它更关注的是日、周级别的重复购买率的变化趋势,或者当月新增客户有多少人是重复购买的,从而可以衡量每个月新增客户的最终忠诚度和质量。

数据应用因小而美

我在做数据应用的这段时间,曾经特别为收集什么样的数据而烦恼。当时我想做一个特别大的数据应用出来,适合大多数人使用,可后来发现这在起步阶段几乎是不可能的。一是可以解决大部分人需求的数据应用根本就不存在,二是支付宝的数据非常丰富,需要考虑的因素很多,因素之间的联系又很复杂。

所以我总结,当做数据应用时,数据就等于原材料,当原材料一直处于变化的情况下,做出来的应用也有问题。体会数据和应用的关系之后,我决定从小角度切入,先做出小应用来。

这里说的“小”指的是应用的目标很具体。打个比方来说,对于一款数据应用,如果我的目的是分辨两种决策谁更好,差异在哪里,是很具体的问题。但如果我的目标是想知道如何让公司赢利,就是一个空泛的目标。

还请注意,“小”不是指数据量。许多人在没有获取足够数据,并且缺乏对数据理解的情况下做判断,其实是在享受自己的无知。

经过一番周折,我选择了按照小角度切入的想法设计数据应用,小角度切入设计应用可以做到具体和快速,而且可以避免因原材料的变化而导致的问题。

这次到美国来也有所感触,现在许多美国数据分析师都在谈空军打仗时采用的分析模型OODA(观察-调节-决策-行动),由于空军打仗强调快速决定,所以这个模型也特别适合今天互联网的需求。这个模型的核心思想就是快速出击,而对于今天的互联网公司来说,发展速度太快了,而数据分析师也必须在快速的发展环境中,迅速找出解决方案。

这个模式完全体现了互联网的快速找错、迅速调节的需要。快速实现原型,对于从来没有用过数据解决问题的互联网公司来说,从小角度切入才更加实际。大数据的背景之下,数据不仅量多,而且种类多。起步阶段,如果不从小角度切入,很难做出实用的产品和看得见的成绩。

把数据放进“框架”之中

这说到了另外一个话题,在大数据的背景下,必须考虑数据之间的关联性。一个单独的数据是没有意义的,实际中,选择处在两个极端的数据往往更容易找出它们之间的联系,把它们放在一个框架中看才能发现问题。

举例来说,我曾经研究美国有哪些网站值得我们学习。依靠数据寻找美国的互联网应用黑马,便是从问题的角度出发。在各种数据中,我选择了 “访问量”和“停留时间” 这两个往往此消彼长的数据作为帮助我决策的框架。利用这个框架,我在2010年就发现了Pinterest,远早于国内对它进行模仿的应用。

因此,关于如何在大数据的背景下,利用数据做决策,我总结了四步走的方法:

第一,从解决问题的角度出发收集数据;

第二,把收集的数据整理好,放入一个框架内,并利用这个框架帮助决策者做出决定;

第三,评估决定与行动的效果,这将告诉我们框架是否合理;

第四,如果有新的数据出现,我们将考察能否利用它对前面三步做出改进,以及我们今天是否还需要收集更多种类的数据。

作者车品觉,支付宝首席商业智能官。中国香港人,曾在英美澳等地接受西方教育,清华及INSEAD双硕士学位,加入支付宝前曾在敦煌网担任首席产品官。

(责任编辑:吕光)

时间: 2024-09-16 05:43:05

大数据里的小利器的相关文章

SAP卢东明:大数据同样需要小身材

文章讲的是SAP卢东明:大数据同样需要小身材,最近我在工作上有些调整,从以前负责专注海量数据存储分析的列式数据库Sybase IQ转移到移动及嵌入式数据库SQL Anywhere,负责SQL Anywhere全球的市场战略,所以想借这个机会写一写移动及嵌入式数据库是一个什么样的技术,对当今的企业应用有何种意义. 大数据时代,大家都在谈大数据之大.之深,围绕着大数据管理.海量数据存储.分析等解决方案层出不穷,列式数据库.海量内存分析.NoSQL,各种数据库技术似乎都是围绕着"大"这个词的

在大数据里:Hadoop可能是你的救命稻草

文章讲的是在大数据里:Hadoop可能是你的救命稻草,用于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息. 对于Hadoop来说,前景很乐观--开源框架旨在促进巨大数据集的分布式处理.Hadoop对企业越来越具有吸引力,因为它既可以获取大数据的好处,同时又避免了基础架构费用. 联合市场研究部门最近的一份报告表明,Hadoop市场将实现从2013年到20

LinkedIn张溪梦的分析哲学:大数据要做小做快

在很多人的印象里,职业社交网站LinkedIn是一家很另类而神秘的社交网站,但它的价值逐渐让世人侧目.在日前举办的2013 Teradata大数据峰会上, LinkedIn商业分析部总监张溪梦(Simon Zhang)在接受IT专家网记者的专访,介绍了LinkedIn如何通过对数据分析技术的利用创造企业的价值. LinkedIn的目标,是联结世界上所有的专业人士,让他们能够更有效率,更成功.目前,LinkedIn在世界范围内的用户已增长到2亿多,86%的财富100强企业正在使用LinkedIn的

大数据里看春运 哪些线路最热门?

"http://www.aliyun.com/zixun/aggregation/12669.html">百度迁徙"发布的腊月二十六22时前的全国8小时最热线路图 12306网站资料图 支付宝发布的春运路线热点图 40天,36亿人次.这是3721.html">2014年春运的总时间和总出行人数.在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门? 在以往,这些问题可能难以精确回答.但随着技术进步,通过应用"大数据&qu

QQ空间电影大数据:《小时代》在“口水”中火起来

中介交易 SEO诊断 淘宝客 云主机 技术大厅 经历了一段时间的沉淀和积累之后,中国电影在2013年迎来了爆发期.在被国外大片席卷多年之后,中小成本电影成为中国电影市场的主流,并屡屡创造大票房奇迹.从年初的<西游降魔>到前一阵子火热的<小时代>,票房黑马接连杀出.破亿,似乎已成为电影票房的最低标准.票房繁荣的背后,离不开大数据的影响以及营销方式的转变. 电影里的大数据 大数据是时下谈论最热门的词汇之一.数据体量巨大.数据类型繁多.价值密度低,商业价值高.处理速度快是其最主要的特点.

大数据里看春运:实时地图上的春运全景

"百度迁徙"发布的腊月二十六22时前的全国8小时最热线路图 12306网站资料图 支付宝发布的春运路线热点图 制图王斌 40天,36亿人次.这是3721.html">2014年春运的总时间和总出行人数.在这场堪称人类历史上最大规模的短期迁徙中,人群从哪儿去了哪儿?哪些线路最热门? 在以往,这些问题可能难以精确回答.但随着技术进步,通过应用"大数据"这一技术利器,人们已经接近"在迷宫中感受全局"地看见春运的全景. 实时地图上的春运全

《Hadoop与大数据挖掘》——第2章 大数据存储与运算利器—Hadoop 2.1 Hadoop概述

第2章 大数据存储与运算利器-Hadoop 本章主要介绍了Hadoop框架的概念.架构.组件.生态系统以及Hadoop相关编程,特别是针对Hadoop组件HDFS.MapReduce.YARN,Hadoop MapReduce编程做了较详细的介绍.在介绍各个知识点的同时,结合动手实践章节,帮助读者理解对应的内容. 2.1 Hadoop概述 2.1.1 Hadoop简介 随着现代社会的发展,各种信息数据存量与增量都非常大,很多情况下需要我们能够对TB级,甚至PB级数据集进行存储和快速分析,然而单机

大小数据 | 辨析大数据价值与小数据洞察

大数据技术的出现带给人们的思维方式.行为方式.媒体传播方式及社会治理方式等都诸多方面带来了革命性的变革.<大数据时代>一书的核心观点是说:"在大数据时代,我们正经历着一场生活.工作与思维的大变革. 我们没必要非得知道现象背后的原因,而是要让数据自己发声."在大数据时代,相关关系能够帮助我们更好地了解这个世界,建立在相关关系分析法上面的预测是大数据的核心,通过找到"关联物"并监控它,我们就能够预测未来. 作者还提出了"大数据三原则":要

大数据时代,小数据中心

文章讲的是大数据时代,小数据中心,中国(上海)国际数据中心技术设备展览会在上海隆重开幕.紧跟德国工业4.0的新趋势,威图(Rittal)携绿色.节能.可靠的数据中心系统解决方案登陆本次展会.在变革的大数据时代,威图(Rittal)将引领数据中心行业健康稳步发展. 展会现场,威图针对模拟的微模块.通道封闭系统,进行了实时监测,参观者可以通过液晶屏,直接了解数据中心内部各项指标信息.威图(Rittal)的微模块,它可根据客户需求在工厂进行预制,并可灵活拆卸,快速组装.威图(Rittal)的LCP机柜