数据分析中的变量分类

数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。

变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法:

按基本描述划分

【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转化为特定含义的数字。

定性变量可以再细分为:

有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢

无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量 二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。 多分类变量是指两个以上类别,如血型分为A、B、AB、O

【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。

定量变量可以再细分

连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。

离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。

按照精确描述划分

【定类变量】

测量事物类别或属性,各类支架没有顺序或等级,实际上也就是上面说的无序分类变量,所包含的数据信息很少,只能计算频数和频率,是最低层次的一种变量

【定序变量】

测量事物之间的等级或顺序,就是上述的有序分类变量,由于它的变量值可以是数值型或字符型,并且可以反映等级之间的优劣,除了可以计算频数和频率之外,还可以计算累计频率,因此数据包含的信息多于定类变量。

【定距变量】

测量事物的类别或顺序之间的间距,它不但具有定类和定序变量的特点,还能计算类别之间的差距,可以进行加减运算,数据包含的信息高于前两种

【定比变量】 测量事物类别比值,和定距变量相比,它不但可以进行加减运算,还可以进行乘除运算,包含的数据信息最多,是最高级的变量。

上面这四种变量可以从浅到深精确的描述事物,四种变量级别从低到高,高层次变量可以向低层次转化,代价是损失部分数据信息,但是低层次变量无法向高层次转化,这会得出错误结果。

按照变量的取值划分

前面两种分类方法都是从变量对事物的描述角度出发进行分类,一旦对事物描述确定下来,那么变量的取值也就相应确定下来了,比如定性变量的取值只能是某属性下的计数,比如人数、客户数等,因此只能取特定的值,数值是离散的。而定量变量可以取某属性下的任意值,变量值即可连续也可离散,比如身高、体重、销售额等。连续型数值和离散型数值的分析方法是不同的,因此从统计学角度,又经常划分为连续型变量和定性变量(分类变量)

关于变量的类型及取值方法,可以归纳为下表

本文作者:佚名

来源:51CTO

时间: 2024-08-02 07:02:40

数据分析中的变量分类的相关文章

网页游戏数据分析中变量与关系的相关疑问

"http://www.aliyun.com/zixun/aggregation/8458.html">优化推广""找到用户流失原因和解决方法"是网页游戏数据挖掘数据分析最主要的两方面功能作用,对此尝试举例提出个人在相关思考的几个疑问作为探讨交流题目,希望借此共同关注数据分析在网页游戏运营领域的应用.QQ61411209 MSN:f95858@msn.cn网页游戏广告投放效果的优化是运营中推广需要解决的主要问题,利用数据分析为寻求最优广告策略提供依据

Linux中环境变量文件及配置

一.环境变量文件介绍 转自:http://blog.csdn.net/cscmaker/article/details/7261921 Linux中环境变量包括系统级和用户级,系统级的环境变量是每个登录到系统的用户都要读取的系统变量,而用户级的环境变量则是该用户使用系统时加载的环境变量.所以管理环境变量的文件也分为系统级和用户级的,下面贴一个网上找到的讲的比较明白的文件介绍(略作修改)[1]: 1.系统级:(1)/etc/profile:该文件是用户登录时,操作系统定制用户环境时使用的第一个文件

Xcode中修改变量名、类名及字符串的替换操作

Xcode中修改变量名.类名及字符串的替换操作         在做iOS开发代码优化的工作时,优化代码结构之前,我们应该先整理好工程的外貌,将文件和类的命名进行规范,在Xcode中为我们提供了方便而强大的名称修改功能. 第一步:修改类名         将鼠标点击放在类的名称上,选择Xcode工具栏中的edit->refactor->rename: 之后,将类名更改为我们需要的模式点击preview,记得将下面的关联文件勾选: Xcode会为我们检测出需要更改的地方,浏览无误后点击save.

c c++编程-c++中 数据类型 变量名(常量) 这样的无法结构是什么意思呢?

问题描述 c++中 数据类型 变量名(常量) 这样的无法结构是什么意思呢? 这是一段c++程序,请问中间那句 double r(3.0)是什么意思?为何 3.0用括号包着?r又不是一个函数.. 解决方案 对变量的初始化的另一种形式. C++支持两种形式的初始化:1:使用赋值操作符的显示语法形式.如:int ival=1024;2: 隐式形式,初始值被放在括号中.如:int ival (1024); 解决方案二: 这样的无法结构是什么意思呢?可能是 数据类型 没有相应的构造函数,具体需要看 数据类

驱动 架构-在驱动程序中对硬件的初始化和在设备中对变量的初始化有什么联系和区别?

问题描述 在驱动程序中对硬件的初始化和在设备中对变量的初始化有什么联系和区别? 在驱动程序中对硬件的初始化和在设备中对变量的初始化有什么联系和区别? 解决方案 在设备中对变量的初始化???没明白这句话

ERP基础档案管理模块中实现多级分类档案ID号自动编码技术(V1.0)

erp|编码     ERP基础档案管理模块中实现多级分类档案ID号自动编码技术(V1.0)       本存储过程实现了多级分类档案ID号自动编码技术,本版本(V1.0)现在只实现每级3位的编码, 本版本的特点是: n          可以根据不同的数据库表产生不同的编码,达到通用化 n          调用时通过指定iIsSubNode要产生的节点编码是否是子结点还是兄弟节点来生成对应编码 进行调用本存储过程时需要注意的是需要传递节点的层次(或是叫节点的深度) 另外下一个版本(V2.0)

ERP基础档案管理模块中实现多级分类档案级联删除技术

erp ERP基础档案管理模块中实现多级分类档案级联删除技术   本存储过程实现了多级分类档案级联删除技术 本存储过程的特点是: n          可以在不同的数据库表上应用此存储过程,以达到通用化 n          同时用户也可以根据不同的表结构,选择相应版本的的存储过程,在这里共有三个版本可供用户选择,分别对应表结构中有无节点的深度字段等情况 进行调用本存储过程时只需要传递节点号及表名即可,但是用户选择相应版本进行应用时,需要针对实际情况作出选择 版本一 CREATE procedu

实例详细讲解ASP教程之ASP中使用变量的方法

变量|教程 变量用于存储信息. 假如在子程序之外声明变量,那么这个变量可被ASP文件中的任何脚本改变.假如在子程序中声明变量,那么当子程序每次执行时,它才会被创建和撤销 实例: 声明变量 变量用于存储信息.本例演示如何声明变量,为变量赋值,并在程序中使用这个变量 <html><body><%dim namename="Donald Duck"response.write("My name is: " & name)%>&l

PHP教程:PHP编程中的变量生存周期

对于PHP的中的数据来源, 不外乎有俩种: 1. 来自代码中 对于代码中的变量(也就是直接量)来说, 变量分配/赋值在编译期, 活跃在执行器, 在请求关闭期被销毁.对于这些变量来说, 使用APC进行Opcode缓存, 则会缓存这部分变量的值. 而对于来自外部的变量, 变量分配/赋值在编译器后, 执行期前, 在请求关闭期被销毁,对于这些变量来说, 使用APC进行OpCode缓存, 是不会被缓存的. 今天就着重关注下外部变量的一个部分,GET来的数据的整个生命周期. 假设, 有如下请求到来:   而