大数据的方法:《证析》

  每一个从事商铺零售的人都知道,店内商品的摆放是很有些学问的。这个领域还有本书《啤酒与尿布》来分析如何进行货品陈列。但即便如此,依然存在两个缺陷:其一,必须通过销售数据来进行指导,而那些逛店但却没有消费行为的,很难从他们身上获得些什么;其二,商铺内的陈设(不仅仅是商品包括装饰物)不可能每天都进行变化,物体的位移总是比较麻烦的。

  但电子商务就不是。我几位从事化妆品电商的朋友就搞过这种事。2006年的时候,他们创建了一个化妆品售卖的网站,但有一个疑问:究竟是把货品的照片放在页面上部好呢还是把用户的评论放在照片上好。两种说法其实都有一定的直观上的理由:有的消费者可能会希望第一眼看到货品,但也有消费者希望第一眼看到其他用户的评价。最终他们决定:尝试不同的页面设置方式。

  电商页面布局的调配可比商铺能货品位移来得方便多了,而且用户的访问行为(无论该用户是否购买)都是可以跟踪的。他们做了不少测试性的工作,最终得出个结论:需要先来一张照片,然后放置几条看上去言之有物的评论,然后再放更多的照片,最后再放其它评价——因为通过各种不同布局的结果表明,这种配置方法,对购买率的促进最大。这个结论不是拍脑袋拍出来的,也不是去搞什么网络调查,而是基于实实在在发生的行为数据所得。(这里必须要给个说明,这种方式是基于这个卖家卖的东西,并不见得适合所有电商)

  也许我的这几位朋友压根就没有听说过“证析”,但他们的工作委实已经很接近证析。郑毅所著的《证析》,应该是国内第一本关于Analytics的中文专著,所谓证,即定量证据,也就是数据,所谓析,即分析。分析数据以产生新的洞察,从而影响决策,提升劳动效率。而按照郑氏的说法,这些人做的就是“数据实验”——不过规模比较小,故而还只是接近证析。

  郑毅如是写道,“人和组织将被分为三类:产生数据的人(有意识产生数据的人或无意中留下数据化足迹的人)、有办法搜集数据的人、有能力分析数据的人。第一类几乎包括世上所有利用网络或手机的人;第二类稍微少一些;第三类更少。我们可以将这三类称作新的‘数据阶级Data Class’”。信息时代最重要的财富是“信息”,在数字革命继续深化中,演变为“数据”,能收集且分析数据的群体,自然是这个社会金字塔尖上的人。

  美国是开大数据研究先河的国度,在商业应用上,它到了什么程度呢:一种新的基于移动终端的广告模式已经出现。一个用户的手机总是离ta自己很近,因此可以通过判断手机的位置、移动路线、某地停留时间、手机中安装何种应用等数据,再结合这个手机本身的售价,就可以知道ta是一个什么样的人,对哪种广告会有兴趣。当这个用户在使用各种应用时,这些加载了这种广告的应用便向此人推送——注意,这个广告其实和应用本身没有多大关联,但已经和这个人很有关联了。

  这也是证析,郑毅称之为“位置分析”。它不是拍脑袋或泛泛地说:哦,三高人群会对奢侈品感兴趣,它的背后是大量数据的采集和数据建模,并通过实际行为(不是用户自己口头声称)做出预测。

  证析的方法所要批判的,是两种我们过往常用的方法。其一是近乎建立在直观感觉上的判断,诚然,有些判断则是建立在所谓经验上。《证析》起手作者用了满满一章来嘲笑这种方法。不过客观讲一句,这种方法的好处是时间足够短;第二种方法则是问卷调研,相对第一种方法更有效些,但数据获取时间太长,且数据本身由于随机性问题会导致偏差。但在网络时代,获取行为数据更快捷,自然证析的方法便有其用武之地了。

  作者引用斯坦福大学的Paul Saffo在1997年的预言“很多公司会突然发现它们的主要业务就是数据”来论述数据的重要意义,网络时代的企业则看上去有先天之利。不过,作者同时也指出“企业现在拥有远比以其能力所能有效处理的更多的数据。” 2003年,Lexis Nexis发现了这个问题,并称之为“数据鸿沟Data Gap”:“企业搜集数据的能力已经远远超过了有效利用这些数据的能力。”大量的网络公司,数据库里静静地躺着成堆的数据,却从来不曾想过,或者说,不知道该如何处理。

  所以,《证析》这本书是大数据领域中的著作,这个领域中的中文著作其实不多,比如涂子培的《大数据》、舍恩伯格的《删除》、《大数据时代》,但它和这些书不太相同的是,它更注重于具体的方法:如何采集如何建模,故而书的理工科痕迹很重,有不少专业的公式和图表,不是畅销书的写法,但就实际应用而言——特别对于有着大量数据明白数据之意义却不知如何是好的企业管理者,是不可多得的好书。

时间: 2024-10-08 11:12:20

大数据的方法:《证析》的相关文章

异构大数据存储方法研究

异构大数据存储方法研究 北京交通大学   单旭 主要的研究内容包括以下几个方面:首先,针对大数据的产生及所带来的挑战,从技术的角度论述了非关系数据库的发展历程.从总体上对关系数据库和非关系数据库的特点进行了对比,详细分析了关系数据库的优缺点及在大数据环境下遇到的瓶颈,深入研究了非关系数据库的架构.理论.特征及存储模型,阐述了其相比于关系数据库所存在的优势.然后,从功能上和性能上对微博系统具体的存储要求进行了深入分析,采用非关系数据库中三种具有不同存储模型的数据库,包括Redis.HBase和Mo

HootSuite公司CEO:四种可以驾驭大数据的方法

作者:莱恩·赫尔莫斯(Ryan Holmes)称,管理系统公司http://www.aliyun.com/zixun/aggregation/15996.html">HootSuite的CEO(本文最初发表在LinkedIn) . "大数据就像青少年性爱:每个人都在讨论,但没有人真正知道怎么搞.每个人都认为其他人正在做,于是大家都说自己在做--" 去年,畅销书作家.杜克大学教授丹·艾瑞里(Dan Ariely)在个人Facebook主页上更新了这条状态.从那时开始,这条

大数据热的冷思考:无法取代传统的新闻传播科研方法

古希腊哲学家毕达哥拉斯曾经提出"数是万物的本源"的思想,认为世界万物归根结底都是由某种数量关系决定的.在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件.2012年,技术词汇"大数据"进入人们的视野,不同于传统意义上"数据=数字"的是,在互联网.物联网高速发展的今天,网购经历.视频节目.微信语音都是数据.大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣

《大数据分析原理与实践》——2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处. (1)业务调研 首先需要向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务.对业务的了解无疑是传统建模方法和大数据建模方法都需要的. (2)准备

《大数据分析原理与实践》一一2.1 大数据分析模型建立方法

2.1 大数据分析模型建立方法 大数据分析模型可以基于传统数据分析方法中的建模方法建立,也可以采取面向大数据的独特方法来建立.为了区分这两种模型建立方法,我们分别简称其为传统建模方法和大数据建模方法.由于这两种模型建立方法存在一些交集(如业务调研.结果校验等),我们采取统一框架来进行介绍,在介绍时区分两种建模方法的不同之处.传统数据分析建模方法与大数据分析建模方法从大数据这个概念提出开始,就有"大数据分析方法与传统数据分析方法同与异"之辩.有的观点认为,传统分析是"因果分析&

【干货】郭朝晖:工业大数据的特征、方法与价值创造

嘉宾介绍: 郭朝晖,现为宝钢中央研究院首席研究员.教授级高工.分别于1990.1994.1997年在浙江大学应用数学.化学工程和自动化专业获得学士.硕士和博士学位.1997年加盟宝钢,2005年晋升教授级高工.长期从事信息.模型.自动控制.大数据等领域的技术研发工作. 曾先后担任中国工业与应用数学学会副理事长,中国现场统计学会第八届理事会理事,上海工业与应用学会常务理事,上海人工智能学会理事,上海交大.浙江大学.宝钢人才开发院兼职教授,东北大学兼职博导,宝钢集团党外知识分子联谊会会长,上海市知联

大数据典型相关分析的云模型方法

大数据典型相关分析的云模型方法 杨静   李文平   张健沛 针对传统大数据典型相关分析(CCA, canonical correlation analysis)方法的高复杂度在面临大数据PB级数据规模时不再适应的现状,提出了一种基于云模型的大数据 CCA 方法.该方法在云计算架构的基础上,通过云运算将各端点云合并为中心云,并据此产生中心云滴,以中心云滴作为大数据的不确定性复原小样本,在其上施以CCA运算,中心云滴的较小数据量提高了运算效率.在真实数据集上的实验结果验证了该方法的有效性. 大数据

大数据时代下,你搞清楚市场营销该怎么做了么?

一是通过大数据对用户行为与特征分析.显 然,只要积累足够的用户数据,才能分析出用户的喜好与购买习惯,甚至做到"比用户更了解用户自己".这是大数据营销的前提与出发点.过去虽也有"一切以客 户为中心"作为口号的企业经营思想,可以想想真的能及时全面地了解客户的需求与所想吗,或许只有大数据时代这个问题的答案才能更加明确. 二是通过大数据支撑精准营销信息推送.过去多少年了,精准营销总在被许多公司提及,但是真正做到的少之又少, 反而是垃圾信息泛滥.究其原因,主要是过去名义上的精

大数据迎来黄金时代

互联网被认为是二十世纪人类最伟大的发明之一,数十年间,它迅速影响着我们每个人的生活方式,甚至思维习惯.如今,另一个新事物--大数据的诞 生,被称为是继互联网之后的又一次IT革命.大数据无处不在,当你晚上打开电视看巴西世界杯时,当你拿着手机玩<刀塔传奇>时,当你用快的软件叫一辆出租 车时,无形的数据已经围绕你形成了一个流通的气场.大数据到底是什么?就是人们对海量的数据进行收集.挖掘和运用,并从中创造出不可估量的价值.2014 年虽不是大数据元年,但在这一年里,大数据的普及和运用都达到了前所未有的