3.3 和社会调查有关的术语
数据与调查密不可分,调查是一项生产数据的工作。人口普查、经济普查、学术调查、商业调查等都是重要的数据来源。作为一本关于社会调查数据管理的书,必然会包含一些与之相关的术语和知识点。了解这些术语有助于做好数据管理工作。
定量数据(quantitative data):考察一项事物可从数量和质量两个方面入手,可用于统计分析的数量方面的数据就是定量数据。
定性数据(qualitative data):质量方面的数据就是定性数据。
原始数据(raw data):指的是未经统计的数据。在社会调查中,把完成的调查问卷录入到Stata或excel里,得到的就是原始数据。CGSS公开发布的就是原始数据。
统计数据(statistical data):是通过对原始数据进行概括而得到的数据。最常见的统计数据是国家统计局发布的各种统计数据,统计年鉴上的数据也属于统计数据。Stata里有一个命令collapse可以生成统计数据。
普查(census):对研究对象的全体所做的调查就是普查。常见的全国人口普查、经济普查等都是普查。
抽样调查(sampling survey):简单讲,抽样调查就是只调查研究对象总体的一部分。从总体中抽取一部分进行的调查就是抽样调查。和普查相比,抽样调查省时、省力,成本更低,效率更高。
总体(population):是要研究对象的全部。总体可以分为有限总体和无限总体。有限总体是总体的数量在一定时期内保持不变,如要研究某个村的村民健康,那么全体村民就是总体,而且这个总体的数量是可知的。无限总体是总体的数量是无限的,无法计算的,如要检验一个啤酒厂生产的啤酒质量,这个啤酒厂每天都在生产啤酒,啤酒的总数一直在变。
抽样框(sampling frame):是研究对象总体中所有个体的名单或名册,如户口簿、学生花名册、固定电话等。抽样调查的一个关键就是抽样框的获取。并不是所有的社会调查都能直接拿到要调查对象的全体名单,如CGSS是全国范围的抽样调查,理论上最简单的抽样方法就是拿到全国人民的大名单,用一种随机抽样的方法从中抽取出一部分人作为调查对象。显然,几乎不可能拿到这个抽样框——全中国人民的名单。在有些情况下,研究者获取的抽样框里只能是尽量多的包含要研究对象总体中的所有成员,或无尽总体。
抽样单元(sampling unit):也叫抽样单位,是构成总体的个体。总体不同,其抽样单元也有可能不一样。比如:要调查中国人民大学的所有在校生,那么总体就是当下的所有注册在校的学生,抽样单元就是学生。如果要研究北京市每个社区的建设情况,那么总体就是隶属于北京的所有社区,这里的抽样单元就是社区。
样本(sample):是从总体中抽取出的一个子集。有时,这个子集中的每个个体都可以被当作一个样本。
问卷(questionnaire):在社会调查中,问卷是数据的载体,问卷的主题是要调查的问题及其答案,问卷中的辅助信息包括问卷封面、卷首语、致谢语。问卷可以是纸质版,也可以是电子版。
纸笔调查(Paper-and-pen Interviewing):也被称作传统调查,用的是纸质版问卷,问卷呈现在纸上,访问员/调查对象用笔(铅笔/圆珠笔/钢笔/签字笔等)把答案写在纸上。访问员把完成的纸质版问卷直接送到调查项目组或通过邮寄的方式送到项目组。项目组要安排人员,使用某种统计录入软件把纸质版的问卷录入计算机中,形成电子数据,然后才能用于数据分析和应用。CGSS2003——2013年采用的是纸笔调查模式。
计算机辅助面访(Computer Assisted Personal Interviewing,CAPI):20世纪80年代,欧洲最早出现计算机辅助面访,CAPI用的是电子版问卷,问卷通过电脑(Pad/手机)的屏幕显示和管理,访问员/调查对象用鼠标、键盘、手写笔或触摸屏、语音等手段直接把答案输入计算机里。完成的电子版问卷既可以通过网络实时传输到中央服务器,还可以把它们拷贝到U盘、光盘或移动硬盘等存储介质中通过邮寄的方式寄回项目组。CAPI收集的就是电子版数据,稍作清理即可用于数据分析和研究应用。CGSS2015首次使用了CAPI模式。
测量水平(levelof measurement):也叫测量层次或测量尺度,是对变量取值特征的一种体现,是一种在变量的测量中把信息组织到4个一般层次的体系(劳伦斯·纽曼,2007),这4个一般层次是类别层次、顺序层次、定比层次和定距层次。测量水平和统计方法密切相关,一种统计方法是否能用于计算某个变量,由这个变量的测量水平决定。比如,统计量均值只能用于定比和定距层次的变量,不能用于计算类别变量。