《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第1章 什么是数据分析

第1章

什么是数据分析

1.1 一眼就看到结论还需要数据分析吗

在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪:
我们的企业其实是不需要数据分析的。
我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了。
公司的数据好简单啊,就那么几列,有啥好分析的。
公司里面的很多数据都是造假的,没有分析的价值。
在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题,如果企业员工出于种种原因总是在编造各种假数据,这应该属于职业道德或者企业管理水平(企业应该通过严格严谨的管理流程使得员工无从造假)的范畴,这里暂且不讨论。那么,什么是数据的可分析度呢?
这个问题实际上包含如下两层意思:
1)这个企业的数据是比较复杂的,一眼是看不到结论的,需要使用一些工具、模型、方法进行分析。
2)关于数据的分析是有价值的,也就是说分析的过程和结论对于企业是有价值的,能够对企业的生产经营等带来促进和提高。
因此,在数据的可分析度方面,我们需要有一些判断的维度,以帮助我们辨识数据是否值得分析,这里所说的维度主要考虑企业数据量、数据复杂度、数据颗粒度这三个方面(如图1-1所示)。

1.1.1 企业数据量

企业数据量是企业可分析度的第一要素,企业数据量的大小往往取决于两个因素:
一是企业的行业属性,二是企业的信息化程度。众所周知,互联网行业往往也是产生大量数据的行业,“BAT”不仅仅引领了各自行业的发展,同时也是数据行业发展的标杆。
一般情况下,企业的数据量跟企业的规模呈正相关关系,中等以上规模的企业数据量均比较大。但是也有例外,我曾经接触过一家从事智能手机操作系统推送业务的公司,该公司规模很小,只有40多人,但是由于合作方是国内诸多智能手机的生产企业,因此该企业的手机用户数量有3000多万,每天产生的业务数量高达几GB。

1.1.2 数据复杂度

如果说数据量相当于数据的行,那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例,总共的列数加在一起是12列。该公司要求分析客户数据,但是涉及客户资料的数据基本上就是客户名称、客户行业(行业数据还是不全的)这两列,客户注册资本、销售收入、雇佣人数都没有,怎么分析?
做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚!请想想,你提供的客户数据就是寥寥数列,那要怎么去分析?怎么做文章?
到目前为止,并没有什么明确的指标来度量数据量与数据复杂度,我们很难说每天的数据超过3万行就算数据量多,或者说数据超过30列就算数据复杂。特别是数据复杂度,这中间还有一个数据相关性的问题:以案例文件1.1为例,虽然其中的数据是3列,但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析(相关系数的函数,后面会详细讲解),我们发现第二列“销售数量”和第三列“销售额”之间的相关系数是1(完全相关),如图1-2所示。

从数据分析的角度看,这里实际上是两列数据而不是3列,换句话说,第3列的销售额数据属于“衍生指标”,因为单价30是固定的,我们只需要用销售量这个数据就可以反映销售的状况。
因此通过数据的列数来衡量数据复杂度其实也未必准确,而是应该看剔除相关性之后的列数。

1.1.3 数据颗粒度

数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性,还是通过一个例子来说明一下。炒过股票、用过股票软件的人都知道各种周期的分析(如图1-3所示)。

从图1-3可以看出,股票有1分钟、5分钟、15分钟、30分钟等多个观察周期,而各种周期之间存在着相互包含的关系,例如5分钟的周期线实际上是由5个1分钟的周期线组合而成的,而15分钟的周期线是由3个5分钟周期线组合而成,以此类推。因此,我们说股票数据的颗粒度是:1分钟、5分钟……
其他颗粒度的例子还有很多,例如在分析各地GDP的数据时,涉及全国、省、市、区(县)等颗粒度;考虑家电产品的维度时,也有家电、白色家电、冰箱、型号等颗粒度。
理解了颗粒度之后,就很容易理解如下道理:数据的颗粒度越细越好,因为有了细颗粒度的数据,就可以自行组合成颗粒度比较“粗”的数据。例如我们知道了全国各个区(县)的GDP数据,就可以推算出市、省、全国的数据,但是反向的操作无法实现,即知道了市的GDP数据,未必能够知道下辖区(县)的GDP数据。
综上所述,可以得到如下结论:企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。

时间: 2024-10-22 05:57:24

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第1章 什么是数据分析的相关文章

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.2 选择称手的软件工具

2.2 选择称手的软件工具 数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷.根据作者的经验,还真没有一种工具软件能够包打天下.当然从逻辑上讲也应该是这样的,如果存在一个"万能"的软件,那么其他的软件肯定就要消亡了.笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2. 2.2.1 EXCEL 无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据.从专业分析的角度来看,EXCEL的分析功能太弱

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一1.4 数据分析的流程

1.4 数据分析的流程 数据分析一般有数据采集.数据整理.制表.数据分析.数据呈现等多个阶段.当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了:也有些数据分析并不怎么需要呈现过程.不过,为了方便读者理解,下面将介绍一个完整的流程. 1.4.1 数据采集 数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作.数据采集工作的难度.跨度非常大,有的采集工作非常简单,仅仅是几个简单的邮件.电话,就能够完成数据的采集工作:有的数据采集工作则非常痛苦,

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读

前 言 为什么要写这本书 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐.被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧. "理想很丰满,现实很骨感",原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单.从框架目录的确定.章节内容的选择.语言风格的打磨,到分析结果截图的选

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.3 数据分析的几大抓手

1.3 数据分析的几大抓手 时不时地有培训学员来问我一个问题:"我怎么样才能把数据分析做好?"要回答这个问题还真是不容易,就像业余围棋爱好者问"我怎么样才能快速提高自己的棋力?"或者刚刚进入职场的大学生问"我怎么样才能把销售业绩做好?"一样. 任何一项工作要做好,都是一个综合的成体系的事情,这里就简单梳理一下把数据分析做好的几个必要条件. 1.3.1 足够多的数据 给巧妇多一点米吧!数据量越多,每天更新的数据就越多,做分析的价值就越大.这也就是为

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办

3.4 数据量太大了怎么办 早期做培训的时候,很少有学员来问我数据量的事情,因为大家的数据量都比较小,这几年来不同了,经常有学员来问我:老师,作者的数据有300多万,怎么办?还有学员说,我们要做客户画像,数据量有1000多万,我们平时都是放在MySQL里面做的. 数据量太大了,怎么办?EXCEL的一个工作表只能存放1048576行数据,也就是104万多一点,数据多了如何处理呢? 3.4.1 放到数据库中处理 EXCEL只是一个办公软件,在处理大数据量方面,它远远没有专业的数据库给力.专业数据库能

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.5 如何成为数据分析高手

1.5 如何成为数据分析高手 在工作中接触数据比较多的朋友,由于提高工作效率的需要,或者考虑到职业发展前途,经常会关心一个问题:我怎么样成为一个数据分析高手?这种想法非常自然,如同一个下围棋的人经常会想"我怎么样成为围棋高手"一样. 根据我个人的理解,要想成为数据分析高手,要做到如下几个方面. 1.5.1 "拳不离手,曲不离口" 我培训的课程大概有10多门,不过课程的频度不同,有的课程一年要上好多遍,而有的课程相对比较冷门,一年也上不了几次.然后我就发现,那几个冷门

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程

3.3 耗时耗力的数据整理过程 数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜.泡菜(用水浸泡菜去除农药).洗菜.切菜.配菜等会消耗2-3小时.这和做数据分析很类似,做一个聚类分析,如果选择的模型得当并且电脑运行很快的话,几分钟甚至几秒钟就做完了,但是要把聚类的数据全部收集完毕,很可能要花几天甚至几个月的时间. 数据分析之前的数据整理工作要做哪些事情呢?我们看看以下逻辑. (1)尽可能保证数据是对

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样

3.4.3 数据抽样 如果数据量比较大,也可以采用数据抽样的方法,SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现,比如,可以用随机数函数进行抽样. 以下以SPSS和EXCEL为例来说明如何做数据抽样. 在SPSS中打开数据文件,在"数据"主标签中选择"选择个案",如图3-37所示. 接图3-37,点击"选择个案",如图3-38所示. 在图3-38中,选择"随机个案样本",如图3-39所示. 图3-3

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第2章 数据分析的理论、工具、模型

第2章 数据分析的理论.工具.模型 记得在我上研究生的时候,曾经有一位老师问我,什么是足球的"越位"?我很奇怪他为什么问这个问题,他说看世界杯转播老是在说越位,但他不知道啥意思.而我上大学的时候特别喜欢踢球,大学毕业之后也经常踢球,所以"越位"对我来说再简单不过了,只是没想到一位智力超群.知识渊博的大学老师却并不知晓,所以这件事给我留下了深刻的印象.那时我就明白了,原来我觉得简单不过的东西,若其他人未接触过,可能就未必知道.反之亦然,别人觉得非常简单的东西,我若未入