《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第3章 数据采集与整理

第3章

数据采集与整理

巧妇难为无米之炊,对于数据分析而言,数据收集是极其重要的一步。我曾经听到有人说过,只要有数据,分析嘛,总归做得出来的,我个人基本同意这个观点。
但大多数情况下,我们面临的都不是现成的数据,需要有一个企业外或企业内的数据收集过程,例如宏观经济数据的收集、市场调查数据的采集等,下面就来看看数据采集需要注意的几条重要原则。

3.1 数据采集的几条重要原则

3.1.1 要足够“复杂”

先说一个跟客户接触的例子。一个国企学员课间休息时来问我:“老师,我们领导经常批评我,说我们写的工作报告(数据报告)太简单了,你能看看我们写的报告吗?”我到他电脑前面看了一下,报告确实挺简单的,感觉就是几百个字吧,再看看数据,大概只有6列的样子,难怪领导不满意。
可见,在采集数据的时候,必须要注意数据的复杂性,如同1.1节所说,要综合考虑数据量、复杂度、颗粒度等因素。
都说通过实例说明体会更深,下面再来看另一个例子。数年前,我参与了一家建筑涂料公司发展规划的制作,该公司希望通过对各种信息数据进行分析,从而对未来5年中国的产品发展市场份额有一个整体规划和了解。
让我们看看他们收集了哪些数据,如图3-1所示。

可以看到,要收集的数据不少,但事实上,想要搞清楚企业在未来数年中可能出现的市场态势,即使这些数据都能够顺利找到,可能仍然是不够的。

3.1.2 要足够“细”

“细”实际上就是颗粒度的意思,稍微有点数据收集经验的人大概都知道,要收集年度的数据其实相对比较容易,如果粒度为季度,可能就会有点问题了,到月则很难了,至于每周的数据,那就更不要想了。
不过,也不是每个公司都如此,曾有证券公司做定量分析的人说过,证券数据分析虽然不好做,但是有一点好,起码不用为数据发愁,因为证券系统可以提供最细到1分钟的数据,自然,任何周期的数据和指标都可以自己计算得出。

3.1.3 要有“跨度”

这里讲的“跨度”涉及两个方面,一是数据的时间跨度;二是数据的属性跨度。
中国有句老话就是“路遥知马力,日久见人心”,在数据方面也是如此。数据的时间跨度有时候也称为“数据年龄”,对于同样的数据指标而言,若“数据年龄”分别为5年和1年,差距其实是挺大的。数据年龄越长,往往越能说明问题。
属性跨度稍微难理解一点,实际上就是尽量要找不同的数据,如图3-1,我们找了宏观经济的数据,例如GDP、经济发展增速;也找了全国人口变迁、流动的数据,还找了竞争对手市场占有率的数据等。总之,所找的数据越“杂”,数据跨度就越大,往往也就越能说明问题。

3.1.4 要有可行性

数据收集的一个重要思考维度就是可行性,做过数据采集的人都知道,有时候数据采集的难度之大,会让你觉得这个事情都做不下去了。
我供职过的企业曾经给中国移动的几个省分公司做过供应商,有一次A省分公司让我们了解移动客户的情况,并且给出了一个“客户画像”(这在当时是一个流行的术语,直到现在还有客户提及),那个时候不像现在,手机号码是实名制的,当时中国移动的各个省分公司的全球通手机号比例一般都在20%以下,大部分的手机用户都是神州行和动感地带的,我们根本不知道用户特征,甚至不知道客户的性别。这种情况下,要进行数据收集是很困难的。
还有一个是营销活动数据的收集案例,我们曾经为中国移动的某省分公司收集过营销活动的数据,目的是想知道移动做了营销活动之后,客户的反应情况。当时移动做业务营销的主要方式是短信群发,判断客户对营销活动有反应的终极标准是客户订制了该业务,当然也有一些客户是到移动营业厅或拨打移动客服号1860(当初的客服号,现在改成10086)咨询了该业务。可以想象,在当时的条件下收集这样的数据是何其困难。

时间: 2024-09-17 04:16:32

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第3章 数据采集与整理的相关文章

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.2 选择称手的软件工具

2.2 选择称手的软件工具 数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷.根据作者的经验,还真没有一种工具软件能够包打天下.当然从逻辑上讲也应该是这样的,如果存在一个"万能"的软件,那么其他的软件肯定就要消亡了.笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2. 2.2.1 EXCEL 无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据.从专业分析的角度来看,EXCEL的分析功能太弱

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读

前 言 为什么要写这本书 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐.被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧. "理想很丰满,现实很骨感",原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单.从框架目录的确定.章节内容的选择.语言风格的打磨,到分析结果截图的选

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.3 数据分析的几大抓手

1.3 数据分析的几大抓手 时不时地有培训学员来问我一个问题:"我怎么样才能把数据分析做好?"要回答这个问题还真是不容易,就像业余围棋爱好者问"我怎么样才能快速提高自己的棋力?"或者刚刚进入职场的大学生问"我怎么样才能把销售业绩做好?"一样. 任何一项工作要做好,都是一个综合的成体系的事情,这里就简单梳理一下把数据分析做好的几个必要条件. 1.3.1 足够多的数据 给巧妇多一点米吧!数据量越多,每天更新的数据就越多,做分析的价值就越大.这也就是为

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办

3.4 数据量太大了怎么办 早期做培训的时候,很少有学员来问我数据量的事情,因为大家的数据量都比较小,这几年来不同了,经常有学员来问我:老师,作者的数据有300多万,怎么办?还有学员说,我们要做客户画像,数据量有1000多万,我们平时都是放在MySQL里面做的. 数据量太大了,怎么办?EXCEL的一个工作表只能存放1048576行数据,也就是104万多一点,数据多了如何处理呢? 3.4.1 放到数据库中处理 EXCEL只是一个办公软件,在处理大数据量方面,它远远没有专业的数据库给力.专业数据库能

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.5 如何成为数据分析高手

1.5 如何成为数据分析高手 在工作中接触数据比较多的朋友,由于提高工作效率的需要,或者考虑到职业发展前途,经常会关心一个问题:我怎么样成为一个数据分析高手?这种想法非常自然,如同一个下围棋的人经常会想"我怎么样成为围棋高手"一样. 根据我个人的理解,要想成为数据分析高手,要做到如下几个方面. 1.5.1 "拳不离手,曲不离口" 我培训的课程大概有10多门,不过课程的频度不同,有的课程一年要上好多遍,而有的课程相对比较冷门,一年也上不了几次.然后我就发现,那几个冷门

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程

3.3 耗时耗力的数据整理过程 数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜.泡菜(用水浸泡菜去除农药).洗菜.切菜.配菜等会消耗2-3小时.这和做数据分析很类似,做一个聚类分析,如果选择的模型得当并且电脑运行很快的话,几分钟甚至几秒钟就做完了,但是要把聚类的数据全部收集完毕,很可能要花几天甚至几个月的时间. 数据分析之前的数据整理工作要做哪些事情呢?我们看看以下逻辑. (1)尽可能保证数据是对

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一1.4 数据分析的流程

1.4 数据分析的流程 数据分析一般有数据采集.数据整理.制表.数据分析.数据呈现等多个阶段.当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了:也有些数据分析并不怎么需要呈现过程.不过,为了方便读者理解,下面将介绍一个完整的流程. 1.4.1 数据采集 数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作.数据采集工作的难度.跨度非常大,有的采集工作非常简单,仅仅是几个简单的邮件.电话,就能够完成数据的采集工作:有的数据采集工作则非常痛苦,

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样

3.4.3 数据抽样 如果数据量比较大,也可以采用数据抽样的方法,SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现,比如,可以用随机数函数进行抽样. 以下以SPSS和EXCEL为例来说明如何做数据抽样. 在SPSS中打开数据文件,在"数据"主标签中选择"选择个案",如图3-37所示. 接图3-37,点击"选择个案",如图3-38所示. 在图3-38中,选择"随机个案样本",如图3-39所示. 图3-3

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第1章 什么是数据分析

第1章 什么是数据分析 1.1 一眼就看到结论还需要数据分析吗 在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪: 我们的企业其实是不需要数据分析的. 我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了. 公司的数据好简单啊,就那么几列,有啥好分析的. 公司里面的很多数据都是造假的,没有分析的价值. 在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关.数据质量确实是数据分析很难解决的问题,如果企业员工出于种种原因总是在编造各种假数据,这应该属于职业道