网站数据分析:如何衡量数据的离散程度

  我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:

  极差(Range)

  极差也叫全距,指数据集中的最大值与最小值之差:

  

  极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考虑中间其他数据项,因此往往会受异常点的影响不能真实反映数据的离散情况。

  四分位距(interquartile range,IQR)

  我们通常使用箱形图来表现一个数据集的分布特征:

  

  一般中间矩形箱的上下两边分别为数据集的上四分位数(75%,Q3)和下四分位数(25%,Q1),中间的横线代表数据集的中位数(50%,Media,Q2),四分位距是使用Q3减去Q1计算得到:

  

  如果将数据集升序排列,即处于数据集3/4位置的数值减去1/4位置的数值。四分位距规避了数据集中存在异常大或者异常小的数值影响极差对离散程度的判断,但四分位距还是单纯的两个数值相减,并没有考虑其他数值的情况,所以也无法比较完整地表现数据集的整体离散情况。

  方差(Variance)

  方差使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消:

  

  方差是最常用的衡量数据离散情况的统计量。

  标准差(Standard Deviation)

  方差得到的数值偏差均值取平方后的算术平均数,为了能够得到一个跟数据集中的数值同样数量级的统计量,于是就有了标准差,标准差就是对方差取开方后得到的:

  

  基于均值和标准差就可以大致明确数据集的中心及数值在中心周围的波动情况,也可以计算正态总体的置信区间等统计量。

  平均差(Mean Deviation)

  方差用取平方的方式消除数值偏差的正负,平均差用绝对值的方式消除偏差的正负性。平均差可以用均值作为参考系,也可以用中位数,这里使用均值:

  

  平均差相对标准差而言,更不易受极端值的影响,因为标准差是通过方差的平方计算而来的,但是平均差用的是绝对值,其实是一个逻辑判断的过程而并非直接计算的过程,所以标准差的计算过程更加简单直接。

  变异系数(Coefficient of Variation,CV)

  上面介绍的方差、标准差和平均差等都是数值的绝对量,无法规避数值度量单位的影响,所以这些统计量往往需要结合均值、中位数才能有效评定数据集的离散情况。比如同样是标准差是10的数据集,对于一个数值量级较大的数据集来说可能反映的波动是较小的,但是对于数值量级较小的数据集来说波动也可能是巨大的。

  变异系数就是为了修正这个弊端,使用标准差除以均值得到的一个相对量来反映数据集的变异情况或者离散程度:

  

  变异系数的优势就在于作为一个无量纲量,可以比较度量单位不同的数据集之间的离散程度的差异;缺陷也是明显的,就是无法反应真实的绝对数值水平,同时对于均值是0的数据集无能为力。

  其实这篇文章只是对基础的统计知识的整理,可以从很多资料里面找到,很多统计学的书里面都是在“统计描述”章节中介绍这些基础的统计量,跟均值、中位数、众数等一起罗列,很少通过统计量的具体应用进行分类,而国外的一些书对知识点的介绍更多的是从实际应用的角度出发的,这里推荐《深入浅出统计学》这本书,虽然介绍的都是基础的统计知识,但可读性比较强,通俗易通,相比国内的一些统计学教程,更容易在大脑中建立起有效的知识索引,在具体应用中能够更加得心应手。

时间: 2024-10-26 23:47:24

网站数据分析:如何衡量数据的离散程度的相关文章

网站数据分析的一些问题(一):重点不在数据在于分析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 从事数据仓库和数据分析相关的工作也有段时间了,其实很多问题一直萦绕在脑中,有些甚至已经困扰相当长的一段时间,自己也在不断学习和工作的过程中寻找各种解决方案或者不断优化和替换之前的方案.这些问题从宏观层面到细节层面,很多问题其实没有绝对完美的解决方案,我们只能一步一步地摸索,不断寻找更优的方案以其让问题能够更好高效地得到解决,但每个人掌握的知识有限,所以无论怎么样每个人对问题的看法都会存在局限性;同时因为每个人的知识背景和经历的差异性,对各种问题又会

如何衡量离散程度

衡量指标 离散系数,离散系数又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程. 离散系数指标有:全距(极差)系数.平均差系数.方差系数和标准差系数等.常用的是标准差系数,用CV(Coefficient of Variance)表示. 标准差系数 CV(Coefficient of Variance):标准差与均值的比率.总体标准差系数的计算公式为:      Vσ= σ/ x ×100%,Vσ为标准差系数:σ为标准差:x 为平均数. 标准差 标准差(Standar

网站数据分析:分析的前提—数据质量1

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障.数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分. 我们通常通过数据清洗(Data cleansing)来过滤脏数据,保证底层数据的有效性和准确性,数据清洗一般是数据进入数据仓库的前置环

网站数据分析:多维交叉分析 排查网站数据异常

中介交易 SEO诊断 淘宝客 云主机 技术大厅 我们在进行数据分析的时候,大部分时间都在使用趋势分析.比较分析.细分分析这三类方法,但其实还有一个方法我们也会经常使用--交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力.另外要跟大家说声抱歉的是博客的更新频率可能没有那么频繁了,但是尽量每个月至少能发布一篇,希望文章的质量有所保证,还是欢迎大家留言讨论,能够发起一些有趣的话题,一起拓展在网站数据分析方面的思路. 什么是交叉分析? 交叉分析是指对数据在不同维度进行交叉展现,进行多

网站数据分析:分析的前提—数据质量3

中介交易 SEO诊断 淘宝客 云主机 技术大厅 前面的两篇文章--分析的前提-数据质量1和分析的前提-数据质量2分别介绍了通过Data Profiling的方法获取数据的统计信息,并使用Data Auditing来评估数据是否存在质量问题,数据的质量问题可以通过完整性.准确性和一致性三个方面进行审核.这篇文章介绍最后一块内容--数据修正(Data Correcting). 数据审核帮助我们发现数据中存在的问题,而这些问题有时候可以利用一些方法就行修正,从而提升数据的整体质量,数据修正就是为了完成

网站数据分析:分析的前提—数据质量2

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前一篇文章介绍了数据质量的一些基本概念,数据质量控制作为数据仓库的基础环节,是保障上层数据应用的基础.数据质量保证主要包括数据概要分析(Data Profiling).数据审核(Data Auditing)和数据修正(Data Correcting)三个部分,前一篇文章介绍了Data Profiling的相关内容,从Data Profilin

网站数据分析:难以解释的数据异常

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常.为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不是我们平常所说的异常,抑或是应该归到其他类别,不妨先叫它们"难以解释的异常". 近段

大数据时代每个人都需要做好网站数据分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 很多人把2013年定义为大数据的元年,阿里巴巴三大发展方向之一就是大数据,其实阿里巴巴的平台方向和金融以及马去亲自出手的物流都是以大数据为基础进行运营的.很多财经节目也相当关注大数据这块技术的发展,CCTV2对话连续两集播出大数据时代,头脑风暴连续三集播出大数据时代,与此同时新财富夜谈也在播也大数据入侵这档节目.似乎大数据已经离我们很

网站运营常用kpi数据概述

中介交易 SEO诊断 淘宝客 云主机 技术大厅 网站运营工作是一项综合性的工作,和网站策划.产品经理职位的最大区别在于,网站策划.产品经理相当于制造枪的人,要保证枪的火力大.子弹多等产品特性好,而且要设计的易于使用,比如加瞄准器.而网站运营的角色则是相当于一名优秀的战士,利用好这把枪去消灭敌人,完成任务.因此不难看出,当一个网站产品诞生后,网站是否能发展良好.是否能盈利就要看网站运营者是否能综合自身能力,结合各种资源,配合各个部门,把网站运营好. 以上是我画的一个关于网站分工的思维导图,网站运营