3.2 和统计有关的术语
和数据管理密不可分的另一个专业是统计学。
在信息数据时代,每个人都要具备一定的统计学知识[1]。否则可能因为无法读懂数据、统计分析结果而错失良机,也有可能错误地解读各种数据,给个人生活和工作造成不便。
统计,即把数字统一起来计算。统计是一门关于数字的学科,包括统计描述和统计推断。所谓统计描述,指的是对原始数据进行概括总结的方法,而统计推断指的是基于样本数据来推断总体的某些特征或趋势的方法。
接下来介绍的都是和数据管理有关的统计学基础知识。
在统计学中,变量(variable)指的是要调查或测量的对象的某种特征或属性,如性别、年龄、受教育程度、态度等。
取值(value):指的是调查对象某种特征或属性的全部可能。取值不一定都是数字,也可以是文字,如性别的取值是男性和女性。
统计量(statistics):对抽样数据进行统计计算得出的数值,如平均值(mean)、总和(sum)、最大值(max value)、最小值(min value)。
参数(parameter):对研究总体进行统计计算得出的数值。
总体(population):要研究或调查的对象的全体。比如,要调查某个公司的员工平均收入,那么总体就是现在就职于该公司的所有员工。
样本(sampling):总体的一个子集。比如,要调查某跨国公司的员工平均收入,这个公司非常庞大,员工有几万人,且分布在世界各地,可以采用科学的抽样方法从中抽取3000人作为一个样本,只调查这3000名员工的收入情况。
信度(reliability):指的是测量方法的质量,即对同一现象进行重复观察是否可以得到相同的资料(艾尔·芭比,2014)。在社会调查中,信度和社会调查人员的工作质量息息相关(虚假数据的信度为零),严格按照调查项目的规定工作,方能保证执行过程的信度。社会调查数据采集完成后,科学、客观的数据管理是确保数据信度的有效方法。在社会调查中,常见的测量数据信度的方法是对分法,即把数据随机等分成两份,看两组数据的统计结果是否很接近,如果差异很大,测量信度就有可能有问题。
效度(validity):指的是实证社会调查问卷中的问题在多大程度上反映了要研究问题的真实含义。有效性关注的是提出的问题、收集的数据以及数据分析的正确性[2]。效度是研究设计优劣的一个非常重要的指标,很多研究耗费了大量的研究经费、调查了大量的研究对象,但研究问题并没有很好地测量到想要研究的问题或感兴趣的点,这样的研究和研究数据的效度就很低。
常见的检验效度有效性的标准有表面效度、标准关联效度、建构效度和内容效度[3]。
信度和效度是一对相互关联的概念,好的研究和数据必须效度和信度都要高。
均值(mean):调查对象某个特征(如收入)的总体平均情况,用数值表述是某个变量的算术平均值,类别变量(如性别)没有均值,即使能够算出一个均值,这个均值也没有实际意义。
众数(mode):调查对象在某个特征上出现次数最多的一种情况,用数值表述是某个变量有多个取值,调查对象选择次数最多的那个值就是众数。
中位数(median):是一个位置值,指的是位于中间(N/2或50%)的那个调查对象选择的取值。把调查对象在某个特征上(如收入)的所有可能出现的情况排序,位于第50%个位置上的人选择的特征(某一特定收入)就是中位数。用数值表述是把变量的取值按顺序排列,并列出每个取值出现的频数,第50%所在的取值就是中位数。
分位数(quartile):也是一个位置值,指的是第几个百分位数,和中位数的计算方法一样,中位数是分位数的一种,即中间分位数,常见的有上四分位数——25%分位数,下四分位数——75%分位数。其中下四分位数和上四分位数的差就是分位数差。
标准差(standard deviation):调查对象在某个特征上(如收入)的差异情况。用数值表述就是某个变量的均值减去每个取值的差的平方和,然后除以调查对象个数,再取平方根,这个平方根就是标准差,这个统计量只能用于定量变量。
数据管理和数据分析离不开统计,统计量是检验数据清理、数据分析的重要标准,数据管理人员必须掌握基础的统计知识。市面上的统计书籍已经相当丰富,且分门别类的十分详尽,如社会统计学、医学统计学、生物统计学等,可以根据自己的专业和工作需要选择阅读。