网站数据分析:参数估计与置信区间

  

  我们总是希望能够从一些样本数据中去探究数据总体的表现特征,在网站数据分析中也是如此,我们试图从最近几天的数据表现来推测目前网站的整体形势是怎么样的,有没有变好或者变差的信号,但当前几天的数据无法完全代表总体,所以这里只能使用“估计”。同时,网站的数据始终存在波动,将最近时间段的数据作为抽样样本很可能数据正好处于较低或者较高水平,所以我们用样本得到的估计值不可能是无偏差的,我们同时需要去评估这个估计值可能的变化区间。

  参数估计(Parameter Estimation)是指用样本的统计量去估计总体参数的方法,包括点估计和区间估计。

  点估计

  点估计(Point Estimation)是用抽样得到的样本统计指标作为总体某个未知参数特征值的估计,是一种统计推断方法。

  一般对总体参数的估计会包括两类:一种是用样本均值去估计总体均值,对应到网站数据中的数值型指标,比如网站每天的UV,我们可以用近一周的日均UV去估计目前网站每天唯一访客数量的大体情况;另外一种是用样本概率去估计总体概率,对应到网站数据中的比率型指标,比如网站的目标转化率,我们可以用近3天的转化率去预估网站当天目标转化的水平;同时我们会计算样本的标准差来说明样本均值或者概率的波动幅度的大小,从而估计总体数据的波动情况。

  点估计还包括了使用最小二乘法对线性回归做曲线参数的拟合,以及最大似然估计的方法计算样本集分布的概率密度函数的参数。

  区间估计

  区间估计(Interval Estimation)是依据抽取的样本,根据一定的正确度与精确度的要求,估算总体的未知参数可能的取值区间。区间估计一般是在一个既定的置信水平下计算得到总体均值或者总体概率的置信区间(Confidence Interval),一般会根据样本的个数和标准差计算得到总体的标准误差,根据点估计中用样本均值或样本概率估计总体均值或总体概率,进而得出一个取值的上下临界点。

  我们可以将样本标准差记作S,如果我们抽样获取的有n个样本,那么总体的标准差σ就可以用样本标准差估算得到:

  

  从这个公式中我们可以看到大数定理的作用,当样本个数n越大时,总体指标差σ越小,样本估计值越接近总体的真实值。Excel的图表里面也提供了添加“误差线”的功能:

  

  有了总体的标准差σ,我们就可以使用区间估计的方法计算总体参数在一定置信水平下的置信区间,置信区间(Confidence Interval)给出了一个总体参数的真实值在一定的概率下会落在怎么样的取值区间,而总体参数落在这个区间的可信程度的这个概率就是置信水平(Confidence Level)。

  根据Z统计量的计算公式:

  

  假如在1-α的置信水平下,则总体均值μ的置信区间为:

  

  这里样本均值和标准差都可以根据抽样的结果计算得到,所以在既定置信水平的条件下,我们只要查Z值表(Z-Score)得到相应的Z值就可以计算得到总体均值的置信区间。对于置信水平或者叫置信度的选择,在统计学中一般认为95%的置信度的结果具有统计学意义,但其实在互联网领域数据的分析中不需要这么高的置信度,我们有时也会选择80%或者90%的置信度,相应的Z值见下表:

置信水平1-α 对应Z值Zα/2 95% 1.96 90% 1.65 80% 1.28

  对于总体概率的估计,在具备足够样本数量的条件下,我们用样本概率p预估总体概率,而总体概率的标准差则是sqrt(p(1-p)/n),同样可以计算得到置信区间。

  其实这篇文章的内容大部分都可以在统计学书籍或者网上Wiki里面找到,当然写到博客里面不是为了做科普,这里的每篇“数据分析方法”类目下的文章都是跟相应的网站数据分析的应用文章结合,这篇也不例外,如果你对相关内容感兴趣,请关注后续发布的文章,或者订阅我的博客吧。

  本文采用 BY-NC-SA 协议,转载请注明来源:网站数据分析 » 《参数估计与置信区间》

时间: 2024-09-13 18:49:28

网站数据分析:参数估计与置信区间的相关文章

网站数据分析:分析的前提—数据质量1

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 数据质量(Data Quality)是数据分析结论有效性和准确性的基础也是最重要的前提和保障.数据质量保证(Data Quality Assurance)是数据仓库架构中的重要环节,也是ETL的重要组成部分. 我们通常通过数据清洗(Data cleansing)来过滤脏数据,保证底层数据的有效性和准确性,数据清洗一般是数据进入数据仓库的前置环

网站数据分析篇之——网站导航分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客 站长团购 云主机 技术大厅 之前笔者写过一篇<数据分析是未来seo的必修课>,之后有网友问笔者如何对企业小网站数据分析呢?这个还真的不好回答,只能给出通用的数据分析方法,笔者自己也有好几个企业网站,平时闲下来也会对其30天的数据分析,寻找有问题的页面,然后进行修改.下面跟大家谈谈网站导航的分析.以用户行为为基础去分析网站导航. 对于所有网站来说,一般

seo网站数据分析应重点关注的几方面

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 网站数据分析是seo工作中的重要一环,比如通过流量分析才会知道网站的seo效果,想知道蜘蛛对网站的抓取情况得分析网站日志,想知道做的关键词有没有效果要分析关键词的效能等等.通过网站数据分析可以知道我们的工作效果,同时也能够让我们发现网站存在的问题. 但网站数据分析包括很多方面,除了上面所列举的流量分析.日志分析.关键词分析之外,还有其它很多方面,这边就不一一列举了,下面就列举一些seo应该重点关注的方面. 1. 竞争对手分析 通过对竞争对手

网站数据分析:多维交叉分析 排查网站数据异常

中介交易 SEO诊断 淘宝客 云主机 技术大厅 我们在进行数据分析的时候,大部分时间都在使用趋势分析.比较分析.细分分析这三类方法,但其实还有一个方法我们也会经常使用--交叉分析,尤其是在排查数据异常的问题时,交叉分析就能展现其强大的威力.另外要跟大家说声抱歉的是博客的更新频率可能没有那么频繁了,但是尽量每个月至少能发布一篇,希望文章的质量有所保证,还是欢迎大家留言讨论,能够发起一些有趣的话题,一起拓展在网站数据分析方面的思路. 什么是交叉分析? 交叉分析是指对数据在不同维度进行交叉展现,进行多

网站数据分析:分析的前提—数据质量3

中介交易 SEO诊断 淘宝客 云主机 技术大厅 前面的两篇文章--分析的前提-数据质量1和分析的前提-数据质量2分别介绍了通过Data Profiling的方法获取数据的统计信息,并使用Data Auditing来评估数据是否存在质量问题,数据的质量问题可以通过完整性.准确性和一致性三个方面进行审核.这篇文章介绍最后一块内容--数据修正(Data Correcting). 数据审核帮助我们发现数据中存在的问题,而这些问题有时候可以利用一些方法就行修正,从而提升数据的整体质量,数据修正就是为了完成

网站数据分析:SkyGlue—用GA标记用户生成点击流

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最早看到SkyGlue这个工具是在Cloga博客的文章,后来经过jasseyyang的推荐,向SkyGlue的cindy申请开通了博客GA账号的试用.经过一段时间的使用,现在来简单介绍一下SkyGlue这个工具. SkyGlue是Google Analytics的一个扩展工具,基于对网站中唯一访客的识别和标记,自动追踪网站的事件监控,记录用户操作的点击流数据.SkyGlue同样是通过JS页面标记进行安装部署,不过前提是你已经部署了GA的代码,因为S

网站数据分析的一些问题(一):重点不在数据在于分析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 从事数据仓库和数据分析相关的工作也有段时间了,其实很多问题一直萦绕在脑中,有些甚至已经困扰相当长的一段时间,自己也在不断学习和工作的过程中寻找各种解决方案或者不断优化和替换之前的方案.这些问题从宏观层面到细节层面,很多问题其实没有绝对完美的解决方案,我们只能一步一步地摸索,不断寻找更优的方案以其让问题能够更好高效地得到解决,但每个人掌握的知识有限,所以无论怎么样每个人对问题的看法都会存在局限性;同时因为每个人的知识背景和经历的差异性,对各种问题又会

站长们 请一定不要忽视网站数据分析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 站长们谈起网站运营,总是将SEO挂在嘴边,而谈起SEO,则老是将原创文章,高质量的外链挂在嘴边,仿佛这网站运营的全部就是SEO,就是原创文章和高质量的外链. 诚然,网站运营的核心因素之一就是SEO,而SEO的核心是原创文章和高质量的外链,但是,SEO不是网站运营的全部! 在本人看来,数据的统筹分析,便是网站运营一个不可或缺的重要组成部分,站长们,请你们一定不要忽视数据分析. 为什么说数据统筹分析是网站运营的不可忽略因素? 对于这点,我的观点是这样的

为什么要进行网站数据分析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 往时,战场上将帅临危之际的一个选择能决定千万将士性命,如今,商战交锋时企业老板的一个决断会影响企业未来兴衰.个人来说,一生中面临太多选择与决策,是好是坏,或成与败,有人说都在一念之间,多少人为之后悔一生,但成功与失败却决非只是一念之间,网站运营亦如此. 一,网站数据分析的重要性 评价一个网站好坏,我们最常用的指标是:1,这个网站有多少流量?2