《社会调查数据管理——基于Stata 14管理CGSS数据》一3.2 和统计有关的术语

3.2 和统计有关的术语

和数据管理密不可分的另一个专业是统计学。

在信息数据时代,每个人都要具备一定的统计学知识[1]。否则可能因为无法读懂数据、统计分析结果而错失良机,也有可能错误地解读各种数据,给个人生活和工作造成不便。

统计,即把数字统一起来计算。统计是一门关于数字的学科,包括统计描述和统计推断。所谓统计描述,指的是对原始数据进行概括总结的方法,而统计推断指的是基于样本数据来推断总体的某些特征或趋势的方法。

接下来介绍的都是和数据管理有关的统计学基础知识。

在统计学中,变量(variable)指的是要调查或测量的对象的某种特征或属性,如性别、年龄、受教育程度、态度等。

取值(value):指的是调查对象某种特征或属性的全部可能。取值不一定都是数字,也可以是文字,如性别的取值是男性和女性。

统计量(statistics):对抽样数据进行统计计算得出的数值,如平均值(mean)、总和(sum)、最大值(max value)、最小值(min value)。

参数(parameter):对研究总体进行统计计算得出的数值。

总体(population):要研究或调查的对象的全体。比如,要调查某个公司的员工平均收入,那么总体就是现在就职于该公司的所有员工。

样本(sampling):总体的一个子集。比如,要调查某跨国公司的员工平均收入,这个公司非常庞大,员工有几万人,且分布在世界各地,可以采用科学的抽样方法从中抽取3000人作为一个样本,只调查这3000名员工的收入情况。

信度(reliability):指的是测量方法的质量,即对同一现象进行重复观察是否可以得到相同的资料(艾尔·芭比,2014)。在社会调查中,信度和社会调查人员的工作质量息息相关(虚假数据的信度为零),严格按照调查项目的规定工作,方能保证执行过程的信度。社会调查数据采集完成后,科学、客观的数据管理是确保数据信度的有效方法。在社会调查中,常见的测量数据信度的方法是对分法,即把数据随机等分成两份,看两组数据的统计结果是否很接近,如果差异很大,测量信度就有可能有问题。

效度(validity):指的是实证社会调查问卷中的问题在多大程度上反映了要研究问题的真实含义。有效性关注的是提出的问题、收集的数据以及数据分析的正确性[2]。效度是研究设计优劣的一个非常重要的指标,很多研究耗费了大量的研究经费、调查了大量的研究对象,但研究问题并没有很好地测量到想要研究的问题或感兴趣的点,这样的研究和研究数据的效度就很低。

常见的检验效度有效性的标准有表面效度、标准关联效度、建构效度和内容效度[3]。

信度和效度是一对相互关联的概念,好的研究和数据必须效度和信度都要高。

均值(mean):调查对象某个特征(如收入)的总体平均情况,用数值表述是某个变量的算术平均值,类别变量(如性别)没有均值,即使能够算出一个均值,这个均值也没有实际意义。

众数(mode):调查对象在某个特征上出现次数最多的一种情况,用数值表述是某个变量有多个取值,调查对象选择次数最多的那个值就是众数。

中位数(median):是一个位置值,指的是位于中间(N/2或50%)的那个调查对象选择的取值。把调查对象在某个特征上(如收入)的所有可能出现的情况排序,位于第50%个位置上的人选择的特征(某一特定收入)就是中位数。用数值表述是把变量的取值按顺序排列,并列出每个取值出现的频数,第50%所在的取值就是中位数。

分位数(quartile):也是一个位置值,指的是第几个百分位数,和中位数的计算方法一样,中位数是分位数的一种,即中间分位数,常见的有上四分位数——25%分位数,下四分位数——75%分位数。其中下四分位数和上四分位数的差就是分位数差。

标准差(standard deviation):调查对象在某个特征上(如收入)的差异情况。用数值表述就是某个变量的均值减去每个取值的差的平方和,然后除以调查对象个数,再取平方根,这个平方根就是标准差,这个统计量只能用于定量变量。

数据管理和数据分析离不开统计,统计量是检验数据清理、数据分析的重要标准,数据管理人员必须掌握基础的统计知识。市面上的统计书籍已经相当丰富,且分门别类的十分详尽,如社会统计学、医学统计学、生物统计学等,可以根据自己的专业和工作需要选择阅读。

时间: 2024-10-29 13:32:39

《社会调查数据管理——基于Stata 14管理CGSS数据》一3.2 和统计有关的术语的相关文章

《社会调查数据管理——基于Stata 14管理CGSS数据》一第3章 概念与术语3.1 和计算机及软件有关的术语

第3章 概念与术语 社会调查数据管理--基于Stata 14管理CGSS数据 在开始讲解数据管理每个流程的工作内容之前,需要简单介绍一下和数据管理相关的概念. 在讲解相关概念和术语之前,首先需要了解一下什么是数据.很多耳熟能详.天天挂在嘴边的词,不见得人人都能对其做出精准的解释. 数据:在人类历史很长一段时期中,数据指的就是数字.当计算机诞生后,得益于数据处理技术的飞速发展,数据的外延不断扩大,而今,信息时代的数据除了包含数字数据外,还包括文本.图片.录音.录像等,数据的表现形式变得多样化,数据

《社会调查数据管理——基于Stata 14管理CGSS数据》一第1章 导言1.1 数据管理不被重视

第1章 导言 社会调查数据管理--基于Stata 14管理CGSS数据 数据!数据!数据!重要的事情说三遍! 当前,越来越多的人意识到数据里包含着巨大的力量,潜在着无限的商机,无数的焦点都聚焦于数据,用事实说话已转变成用数据说话.虽然喜欢数据的人越来越多,但他们又恰恰不喜欢数据管理. 1.1 数据管理不被重视 目前,越来越多的人开始用数据说话,用量化研究方法研究社会问题,在大学里学到的数据管理方面的知识和技术越来越少.在这个浮躁社会里,当人们都急于用数据生产文章.生产书籍.生产财富时,没有多少人

《社会调查数据管理——基于Stata 14管理CGSS数据》一1.5 本书简介和使用说明

1.5 本书简介和使用说明 近几年,做社会调查的人/机构越来越多,喜欢社会调查数据的人也越来越多.可是,我在调研和合作经验中,体会得越来越深的一点就是:无论是社会调查,还是数据管理,都是专业性极强的事业.令人恐慌的是,越来越多的非专业人员参与到社会调查中,甚至貌似谁都可以做社会调查,只要有数据,数据库想建就能建.这样发展的后果是人们越来越不相信社会调查数据,特别是基于非专业技术和方法收集的数据得出的所谓的"科学"的结论,更让很多人对社会调查数据嗤之以鼻.渐渐地,我萌生了写一本关于社会调

《社会调查数据管理——基于Stata 14管理CGSS数据》一3.3 和社会调查有关的术语

3.3 和社会调查有关的术语 数据与调查密不可分,调查是一项生产数据的工作.人口普查.经济普查.学术调查.商业调查等都是重要的数据来源.作为一本关于社会调查数据管理的书,必然会包含一些与之相关的术语和知识点.了解这些术语有助于做好数据管理工作. 定量数据(quantitative data):考察一项事物可从数量和质量两个方面入手,可用于统计分析的数量方面的数据就是定量数据. 定性数据(qualitative data):质量方面的数据就是定性数据. 原始数据(raw data):指的是未经统计

《社会调查数据管理——基于Stata 14管理CGSS数据》一1.2 数据管理内容不清

1.2 数据管理内容不清 数据管理不被重视,原因很多,其中一个最重要的缘由当属数据管理的工作内容不清.数据管理,乍一听起来,好像知道是什么,但是真要动手做起来,就有些找不着北.特别是对社会调查数据来说,数据管理的界限更是一个让人头疼的问题. 数据管理,简单地说,在社会调查中,凡是和数据有关的工作都属于数据管理的范畴,除此之外,当社会调查数据收集完成后,数据的录入.清洗.保存.存档.发布等也都是数据管理的重要组成部分.根据工作时间,可以把社会调查数据管理分为三个阶段:数据收集前的管理工作.数据收集

《社会调查数据管理——基于Stata 14管理CGSS数据》一1.3 数据管理工作主体不明

1.3 数据管理工作主体不明 目前,国内的数据管理不仅存在内容和方向问题,而且谁来管理数据也不太清楚.既然数据管理的工作内容都不明确,那么工作主体不明也是情理之中.数据管理主体不明的另一个重要因素是:国内极度缺乏社会调查数据管理人才,没有哪一所学校的哪个专业教授学生如何管理数据. 随着数据时代的到来,很多专业都和数据打起了交道,老师传授学生的都是如何使用数据,更准确地说,如何直接拿数据作分析和研究,但没有告诉学生在数据采集和数据分析之间需要一座桥梁--数据管理.数据采集者认为,数据管理是研究者应

《社会调查数据管理——基于Stata 14管理CGSS数据》一3.4 Stata的一些术语及使用通则

3.4 Stata的一些术语及使用通则 在讲解Stata术语及使用通则之前,首先了解一下Stata.简言之,Stata是一个统计软件,可用于统计分析和数据管理.Stata是付费软件,用户可以从Stata的官网上直接购买最新版的Stata 14. 安装Stata后,打开Stata,界面如图3-1所示. Stata的主界面由六部分构成:工具栏.命令回顾窗口(Review).结果窗口(Result).命令窗口(Command).变量窗口(Variables)和属性窗口(Properties). 中间最

《社会调查数据管理——基于Stata 14管理CGSS数据》一3.5 中国综合社会调查

3.5 中国综合社会调查 中国综合社会调查(China General Social Survey,CGSS)始于2003年,是一项大型学术研究调查项目.CGSS发源于美国的GSS(General Social Survey,GSS),GSS是美国民意调查中心(National Opinion Research Center, NORC)运行时间最长的一个调查项目,该调查项目在全世界都享有盛誉,是国际社会调查界的旗舰.自1972年开始,该项目旨在通过收集当下美国社会的数据,来考察美国的社会变迁,

《社会调查数据管理——基于Stata 14管理CGSS数据》一1.4 数据伦理

1.4 数据伦理 社会科学的科学性不同于自然科学,自然科学研究范式常常因过于理想而难以实现.社会调查在社会中进行,可行的社会调查不一定符合人类和社会的道德规范.研究者在整个研究过程中一定要时时刻刻提醒自己要尊重研究者的知情同意权及其他各种权利,并要感谢参与调查的受访者,感谢他们提供的信息.付出的时间.给予的帮助. 数据管理人员要保护好调查对象,对一项社会调查而言,接受调查的参与者本身就是一种重要的资源,要保护他们的利益,避免伤害他们或置他们于危险之中. (1)数据保密.在整个数据管理过程中,要做

《社会调查数据管理——基于Stata 14管理CGSS数据》一2.3 数据管理的工作规范

2.3 数据管理的工作规范 数据管理工作具有不可逆性.未雨绸缪胜过事后修补. 1.提前规划磨刀不误砍柴工.只要不是一步就能完成的事情,一般都需要规划.很多时候,我们总是在规划上花费的时间太少,在工作上花费的时间太多.对一个数据管理项目而言,好的规划正如一套好的制度对一个国家的运行的作用一样,统筹规划的好坏往往能直接决定一个数据管理项目的成败. 规划既要全面,还要注重细节.数据管理是一个"细活".自上而下的规划思路更具有指导性.规划要切实可行.理论上,完美无缺的方案往往可行性都很低,因为