《数据分析实战:基于EXCEL和SPSS系列工具的实践》——3.3 耗时耗力的数据整理过程

3.3 耗时耗力的数据整理过程

数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜、泡菜(用水浸泡菜去除农药)、洗菜、切菜、配菜等会消耗2~3小时。这和做数据分析很类似,做一个聚类分析,如果选择的模型得当并且电脑运行很快的话,几分钟甚至几秒钟就做完了,但是要把聚类的数据全部收集完毕,很可能要花几天甚至几个月的时间。

数据分析之前的数据整理工作要做哪些事情呢?我们看看以下逻辑。

(1)尽可能保证数据是对的

在错误的数据上分析得出的结论往往是错误的,因此要尽量保证数据的准确性,重复数据以及空行、空列、异常值、不符合逻辑关系的数据都会造成数据质量的降低,要想办法剔除这些数据。至少也要对这些数据有所警醒!
(2)尽可能保证数据能用得上

通常情况下,数据中都会有很多缺失值,面对这种情况,删除肯定是个简单的处理方法,但问题是,这样操作会丢失很多数据和信息。我曾经对某个项目进行测算,如果用“简单粗暴”的方法去删除包含缺失值的数据,那么大概要损失70%左右的数据,这样一来,根据30%左右的数据分析得出来的结论肯定是不准确的。

(3)要保证数据的格式能够直接用于分析

数据有多种组织方式,统计和挖掘中的很多算法模型都需要针对固定格式来做,比如对应分析、关联分析等,因此免不了要做格式转换,有时,为了实现对大数据量的分析,还需要进行编程。

3.3.1 重复、空行、空列数据删除

以案例文件3.1为例,如何对数据进行重复值的排查呢?可综合运用三种方法进行删除,其中,EXCEL提供了两种方法,不过都是直接删除,而SPSS中的重复值处理可以先标识然后再删除,相对更合理一点。下面分别讲讲这三种方法。

(1)EXCEL中的“删除重复项”

首先,选择“数据”中的“删除重复项”,如图3-2所示。

然后选择判断是否重复的项,如图3-3所示。

请注意,图3-3中的“编号”、“成绩”之前的勾选就是重复值的判断条件,意思就是如果编号和成绩都相同,那么就是重复值。我们可以用是否勾选来灵活决定判断重复值的条件。

点击“确定”后会弹出图3-4所示的对话框。

删除重复项的操作简单易行,但是有一个重大缺陷,就是它会直接将重复值删除,这有点“简单粗暴”,更理想的方法是先标注一下,待操作人员查看确认之后,再删除比较好。因此在做这个操作之前最好先进行数据备份。

(2)高级筛选

很多人都知道高级筛选是用来做多条件的复杂筛选的,但是知道用高级筛选来删除数据的人却不多,下面会介绍这个方法。首先进入高级筛选界面,如图3-5所示。

在高级筛选界面中,选择源数据区域和将要复制的数据块位置,如图3-6所示。

特别要注意的是,图3-6左下角的“选择不重复的记录”一定要勾选,然后点击确定,操作即完成。

相对于删除重复项,高级筛选连个输出提示都没有,这让初次使用的人往往感到有点没头没脑,起码应该有一个操作告诉我处理了多少数据、删除了多少数据吧。因此,高级筛选这个操作也需要谨慎,要事先做好数据备份。

(3)SPSS中的处理重复值

在SPSS中有专门处理重复值的模块,请见图3-7。

进入“标识重复个案”模块后,会弹出如图3-8所示的界面。

如同EXCEL中的“删除重复项”,SPSS中也需要选择若干字段作为判断是否重复的依据,图3-8中选择了手机号码和ARPU,代表手机号码和ARPU都相同才表示数据重复。“基本个案指示符”中的1表示唯一值,0表示重复值。勾选左下角的“将匹配个案移至文件顶端”表示会将有重复的数据移到文件最上端。

最后的输出结果如图3-9所示。这样的输出结果是比较合理的,可以先观察再删除,比直接删除要安全。

(4)删除空行

以案例文件3.3为例,为了删除空行,先用EXCEL进行排序,如图3-10所示。

排序结束后,删除空行即可,如图3-11所示。

以上删除空行的方法打乱了数据的顺序,若想不打乱数据的顺序,可采用辅助列的方法,如图3-12所示。

也就是先按照编号进行排序,删除空行后,再按照“次序”进行排序,最后删除“次序”辅助列。

3.3.2 缺失值的填充和分析

数据中的缺失值产生的原因很多,有的是原始数据中就没有,有的是漏了,有的则是因种种原因没有收集;还有填写者故意不填的,例如市场调查的问卷中,涉及收入、对竞争对手如何看待等敏感性问题时,就经常会出现缺漏的情况。还有一种比较特殊的情况是,最近的数据还没有统计出来,例如现在是2017年,可能2017年的Q1的数据还没有出现,甚至有可能2016年的Q4的数据都还没有出来。

之前已经说过,对于缺失值数据,一般不能采用“简单粗暴”的删除方法,而应尽可能地进行填充,下面就介绍一些填充的方法。

(1)手工填充

以案例文件3.4为例,2011年和2012年的数据都是完整的,2013年的数据有一些缺漏,这个时候有几种填充思路:

1)按照2013年销量的平均值做填充,这是比较简单的做法。
2)用历年同月的平均值做填充,例如2013/12/21的数据是空缺的,就拿2011年和2012年销量的平均值来填充,这是比较精准的做法。

以上的填充技术非常简单,不再赘述,直接用average函数即可。

(2)利用SPSS“替换缺失值”进行填充
案例文件3.5,SPSS中有两处菜单功能涉及缺失值,一是“转换”中的“替换缺失值”,二是“分析”中的“缺失值分析”。“替换缺失值”中可以用多种替换方法,以案例文件3.5为例来看一下,先在图3-13所示的菜单找到“替换缺失值”。

然后,进入“替换缺失值”界面,如图3-14所示。

在替换的方法中,有序列均值、临近点的均值、临近点的中位数等多种方法可以选择,一般选择“序列均值”和“临近点的均值”比较多一些。

(3) 利用SPSS“缺失值分析”进行填充

对于案例文件3.6,在分析分组和年龄这两个因素对分析指标的影响时,可采用SPSS的线性回归来处理,如图3-15所示。

然后进入线性回归的界面进行设置,如图3-16所示。

得到的结论如图3-17所示。

由于体重组和年龄的检验p值都小于0.05,因此得到结论:体重组和年龄对于分析指标都有着显著的影响。

若对案例文件3.7(该案例有缺失值)执行同样的操作,得到的输出结果如图3-18所示。

从图3-18所示的输出可以看出,在有缺失值的情况下,体重组的sig是0.076>0.05,因此得到结论:体重组对于分析指标的影响不显著,而年龄对于分析指标的影响显著。

现在考虑如何填充数据,在图3-19所示的界面选择“缺失值分析”。

SPSS的缺失值分析中,常用的有EM和回归这两种方式。下面首先展示EM方式填充缺失值的方法,如图3-20所示。

在图3-20所示的界面中,点击“EM...”,进入如图3-21所示的界面。

将填充好的缺失值放到数据集a中,就完成了相应的操作。

同样也可以用回归方法实现缺失值的填充,如图3-22所示。

为了比较EM和回归这两种填充方法的优劣,仍旧做数据回归来比较EM和回归这两种填充方式的差异,请注意,这里出现了两个“回归”,前面一个“回归”是数据分析的回归方法,后面一个“回归”是SPSS里面的一种填充算法。

图3-23是采用EM方法填充数据后进行回归分析的输出结果,图3-24是采用“回归”方法填充数据后进行回归分析的输出结果。可以看到,EM回归的两个检验P值0.008和0.004,分别小于0.023和0.012,这说明EM填充缺失值的质量要高于回归填充缺失值。

3.3.3 数据间逻辑的排查


在图3-26中,选择自定义公式,在公示栏中输入公式:=AND(C2<=25, D2>=5),也就是当C2(年龄)小于等于25,并且学历大于等于5(5是硕士,6是博士)的时候,将编号填充为红色,结果如图3-27所示。

从图3-27可以看出,编号为11和18的,其学历和年龄之间的逻辑关系不正常,需要重点关注和纠正。

根据业务关系来排查数据的例子还很多,这需要读者结合自己的业务逻辑努力去排查判断。

此外,数据合并也是数据准备的重要内容,这将在4.1节中详细叙述,在此不再重复。

时间: 2024-09-08 16:42:55

《数据分析实战:基于EXCEL和SPSS系列工具的实践》——3.3 耗时耗力的数据整理过程的相关文章

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办

3.4 数据量太大了怎么办 早期做培训的时候,很少有学员来问我数据量的事情,因为大家的数据量都比较小,这几年来不同了,经常有学员来问我:老师,作者的数据有300多万,怎么办?还有学员说,我们要做客户画像,数据量有1000多万,我们平时都是放在MySQL里面做的. 数据量太大了,怎么办?EXCEL的一个工作表只能存放1048576行数据,也就是104万多一点,数据多了如何处理呢? 3.4.1 放到数据库中处理 EXCEL只是一个办公软件,在处理大数据量方面,它远远没有专业的数据库给力.专业数据库能

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读

前 言 为什么要写这本书 在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐.被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧. "理想很丰满,现实很骨感",原来觉得自己手里有不少案例,各种工具的使用也算是比较熟练,写起书来应该得心应手,进度也会比较快,但是真到开始动手写作时,才发现并不是那么简单.从框架目录的确定.章节内容的选择.语言风格的打磨,到分析结果截图的选

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程

3.3 耗时耗力的数据整理过程 数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜.泡菜(用水浸泡菜去除农药).洗菜.切菜.配菜等会消耗2-3小时.这和做数据分析很类似,做一个聚类分析,如果选择的模型得当并且电脑运行很快的话,几分钟甚至几秒钟就做完了,但是要把聚类的数据全部收集完毕,很可能要花几天甚至几个月的时间. 数据分析之前的数据整理工作要做哪些事情呢?我们看看以下逻辑. (1)尽可能保证数据是对

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.2 选择称手的软件工具

2.2 选择称手的软件工具 数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷.根据作者的经验,还真没有一种工具软件能够包打天下.当然从逻辑上讲也应该是这样的,如果存在一个"万能"的软件,那么其他的软件肯定就要消亡了.笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2. 2.2.1 EXCEL 无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据.从专业分析的角度来看,EXCEL的分析功能太弱

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一1.4 数据分析的流程

1.4 数据分析的流程 数据分析一般有数据采集.数据整理.制表.数据分析.数据呈现等多个阶段.当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了:也有些数据分析并不怎么需要呈现过程.不过,为了方便读者理解,下面将介绍一个完整的流程. 1.4.1 数据采集 数据采集指为了保证数据分析能够顺利展开而进行的数据采集工作.数据采集工作的难度.跨度非常大,有的采集工作非常简单,仅仅是几个简单的邮件.电话,就能够完成数据的采集工作:有的数据采集工作则非常痛苦,

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.2 用专业工具处理

3.4.2 用专业工具处理 专业的统计分析和挖掘工具虽然不是数据库,但是其数据的吞吐量也远高于EXCEL.以下以SPSS和MODELER为例来说明它们是如何处理大数据量的.(1)SPSS处理大数据量这里以案例文件3.10.1和3.10.2进行说明,这两个文件的数据量均超过了60万行,现在要将这两个文件合并,合并后的数据会超过120万行,EXCEL已经无法容纳,因此考虑采用SPSS处理.打开SPSS软件,依次选择"文件"→"打开"→"数据",如图3

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一第3章 数据采集与整理

第3章 数据采集与整理 巧妇难为无米之炊,对于数据分析而言,数据收集是极其重要的一步.我曾经听到有人说过,只要有数据,分析嘛,总归做得出来的,我个人基本同意这个观点.但大多数情况下,我们面临的都不是现成的数据,需要有一个企业外或企业内的数据收集过程,例如宏观经济数据的收集.市场调查数据的采集等,下面就来看看数据采集需要注意的几条重要原则. 3.1 数据采集的几条重要原则 3.1.1 要足够"复杂" 先说一个跟客户接触的例子.一个国企学员课间休息时来问我:"老师,我们领导经常批

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.3 数据分析的几大抓手

1.3 数据分析的几大抓手 时不时地有培训学员来问我一个问题:"我怎么样才能把数据分析做好?"要回答这个问题还真是不容易,就像业余围棋爱好者问"我怎么样才能快速提高自己的棋力?"或者刚刚进入职场的大学生问"我怎么样才能把销售业绩做好?"一样. 任何一项工作要做好,都是一个综合的成体系的事情,这里就简单梳理一下把数据分析做好的几个必要条件. 1.3.1 足够多的数据 给巧妇多一点米吧!数据量越多,每天更新的数据就越多,做分析的价值就越大.这也就是为

《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.5 如何成为数据分析高手

1.5 如何成为数据分析高手 在工作中接触数据比较多的朋友,由于提高工作效率的需要,或者考虑到职业发展前途,经常会关心一个问题:我怎么样成为一个数据分析高手?这种想法非常自然,如同一个下围棋的人经常会想"我怎么样成为围棋高手"一样. 根据我个人的理解,要想成为数据分析高手,要做到如下几个方面. 1.5.1 "拳不离手,曲不离口" 我培训的课程大概有10多门,不过课程的频度不同,有的课程一年要上好多遍,而有的课程相对比较冷门,一年也上不了几次.然后我就发现,那几个冷门

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样

3.4.3 数据抽样 如果数据量比较大,也可以采用数据抽样的方法,SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现,比如,可以用随机数函数进行抽样. 以下以SPSS和EXCEL为例来说明如何做数据抽样. 在SPSS中打开数据文件,在"数据"主标签中选择"选择个案",如图3-37所示. 接图3-37,点击"选择个案",如图3-38所示. 在图3-38中,选择"随机个案样本",如图3-39所示. 图3-3