网站分析中数据的统计学显著性检验

  在网站分析中,经常会做网站优化测试,就会比较不同方案的转换率,例如跳出率,订单购买率,按钮点击率等;也会记录访客或者客户的详细数据表现。但很多时候差异都很小,究竟是保持现状还是全面采用新方案的内容,很难有结论,于是两者差异在统计学的意义是否显著就变得很重要。

  这篇文章主要讲解两种检验数据的方法:分别是在Excel中使用已经写好函数的数据显著性计算器,和使用SPSS对详细客户数据进行显著性检验。

  一、Excel-数据显著性计算器

  假设有下列的数据:

  社交媒体来源访问数订单订单购买率

  YouTube250008903.56%

  Facebook48002405%

  那么我们可以使用Avinash Kaushik介绍的Excel-数据显著性计算器来检验,详细请查看http://www.kaushik.net/avinash/excellent-analytics-tip1-statistical-significance/

  Excel文件可从此处下载: http://vdisk.weibo.com/s/cz9E6

  输入数据后计算得知(Number of Test Participants是分母,Number of Conversions是分子),差异是显著的,因为方框中显示了”Yes”

  

  以上方法的原理是两组数据的差异超过了数据置信区间的话,那么就会出现数据显著性差异的结果。

  以上的方法适用于简单的两个比率之间的对比,接下来要说说高级点的内容,SPSS中的假设检验问题来比较两个样本的均值。

  二、两独立样本T检验

  SPSS中比较均值的方法包括:

  假设检验的方法样本变量关系范例

  均值(单双因素)单样本变量之间网站分析师的月(工资、经验、工作地点)关系

  单样本T检验单样本变量自身iPhone的机身长度

  两独立样本T检验双样本变量之间不同促销方案的效果、男女性的身高

  配对样本T检验同一总体双样本变量自身不同月份访客的购买行为

  在介绍两独立样本T检验之前,先说下均值的比较情况,由浅入深。

  1.均值的检验

  假设检验的步骤一般分为以下几步:

  1)确定原假设和备选假设(原假设就的意思是对总体的比例、均值或分布做出某种假设)

  2)选择检验统计量

  3)计算检验统计量观测值发生的概率,P值

  4)给定显著性水平α, 如果P<α, 即小概率事件发生,即原假设发生的概率很小,那么推翻原假设,如果P>α, 那么原假设成立。

  假设有以下两种情况:

  1)工厂的质量管理员说:产品缺陷率只有1/1000, 然后你开始抽查,抽了5件,就有2件是有问题的,那么问题就大单了。

  因为1000件中最大缺陷数是1件,现在有2件,也就是概率极小的事情发生。

  最大缺陷数原假设检验结论

  11/10002/5否定

  2)工厂的质量管理员说:产品缺陷率只有1/100,然后你开始抽查,抽了5件,就有2件是有问题的,那么问题也挺大单。

  1000件中最大缺陷数是10,现在有2件,接下来还有995件要查,那么有两种可能:

  *产品缺陷率远远高于1%,质量管理员忽悠人;

  *碰巧抽到有缺陷的产品,接下来的995件很少有缺陷的了。

  概率计算:

  

  原假设:也就是假设产品缺陷率是1/100, 前面抽了5件,就有2件次品的概率是0.088%;

  最大缺陷数原假设检验结论

  101/1002/5未定

  抽5件中2件,后续抽查产品缺陷率小于1/100的的概率为0.088%;抽5件中2件,后续抽查产品缺陷率大于1/100的的概率为99.912%,即原假设发生的概率<α,如果α为5%,那么0.088%<5%, 即检验中的小概率事件发生,原本不太可能的事情发生了,那么推翻原假设。

  注意:数据案例来自李洪成老师的SPSS资料

  2.两独立样本T检验

  两独立样本T检验指的是两个样本来自的总体相互独立,目的是分析两个独立样本的均值是否有显著的统计差异。接下来的案例背景是:不同优化方案影响访客订单价值的情况。

  一、前提条件:

  要进行两独立样本T检验,要满足以下条件:

  1)总体相互独立

  2)总体服从正态分布

  3)样本的方差相同

  原始数据如下:

  

  1.数据设置

  1)选择分析-描述统计-探索

  

  2)将访客销售额(sales)填入因变量列表,不同方案(test类型)填入因子列表:

  

  3)点击绘制,勾选直方图和带检验的正态图

  

  2.数据报告

  由下图得知,两个方案各有200个样本:

  

  由下图得知:

  1) 0方案的销售额均值(1697)大于1方案的销售额均值(1570)

  2)二者的标准差相差不大,657/610标准差比为约等于1。

  

  下图是0方案的直方图(验证是否具有正态性)

  

  下图是1方案的直方图(验证是否具有正态性)

  

  从下图得知,0和1方案的P值(sig)都大于0.05,因此都具有正态性。

  

  二、正式分析两独立样本的T检验

  点击分析-比较均值-独立样本T检验:

  

  将sales放进检验变量,test放进分组变量,同时点击“定义组”,分别用0和1来填充:

  

  两独立样本检验假设了两种情况,分别是方差相等和方差不相等的T检验结果。

  方差方程的Levene检验的P值为0.94,大于0.1,说明两个独立样本的方差是齐性的,因此选择假设方差相等的情况。

  方差相等情况下,SIG(P值)为0.047,小于显著性水平0.05,因此说明1方案的消费金额显著不同于0方案的消费金额,0方案在统计上比1方案具有显著性特征。

  

  注意:以上SPSS数据库的数据是导入excel数据生成的,以上excel数据是虚拟的,可通过rand()函数随机生成。

  以上就是对于数据的统计学意义的验证,随着大数据时代的到来,单纯的网站前端数据分析显得比较简单,客户数据和订单数据的分析需求会越来越多,希望对工具的熟练掌握能够帮我们理顺这一切。

原文:深圳网站分析 http://www.szwebanalytics.com/data-analysis-excel-spss.html

时间: 2024-08-29 19:59:30

网站分析中数据的统计学显著性检验的相关文章

网站分析中应该掌握的一些数据

要想把网站优化的很出色,就要懂得如何分析.整理好准备进行优化的网站资料,还需要把网站根据搜索引擎的喜爱进行调整,然后从各个方面分析找出问题,并且拿出好的解决方案,才可以开始优化工作.那么当网站做好了以后大家就要对网站的效果进行数据分析了,对于工作中网站分析中应该掌握的一些数据有哪些?接下来孙旸杰给大家进行详细介绍: 网站数据分析,指的是通过观察.调查.实验.测量等结果,通过数据的显示行式把网站各方面情况反映出来,使运营者更佳了解网站的运营情况,便于调整网站的运营策略.如今,随着全球互联网的高速发

页面标记法网站分析及数据捕获原理

[前言] 网站分析如何获得数据,其实有很多种方法.例如利用服务器日志数据,或者是在客户端装一些监视软件.页面标记法网站分析获取数据的方法跟前二者都不一样,但一经出生,就艳惊四座,迅速成为主流方法.我的博客(http://www.chinawebanalytics.cn)实际上几乎所有的话题都是基于页面标记法的.今天的文章,带朋友们一起再次了解什么是页面标记法的网站分析,以及我们日常所读的Omniture Site Catalyst或是Google Analytics网站分析报告中的数据,都是怎么

挑战网站分析中的大众智慧(1)——Bounce Rate

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [前言] 本系列文章应NetConcepts的Allen特邀撰稿.同时,这也是第一篇在上下班地铁上完成的文章. 大众的智慧一定是正确的智慧吗?或许你也听说了"多数人的暴·政"这个词.无论在何领域,由于"大众智慧"的影响,更高的智商并不总能确保我们做出更正确的决策,一如36kr的文章所说,聪明人有时候可能容易犯傻.所以,这一系列的文章是看一看网站分析领域中的哪些大众智慧可能会让你"误入歧途".第一篇文

挑战网站分析中的大众智慧(2)——热图

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [每期一句]所有人都沉浸在时间之中,并被流逝的岁月卷走.人终其一生不过是在与时间抗争.我们很想抓住一次恋爱,一场友情,但是这些情感只能依附于人才能得以留存,而每个人自己,随着时间的流逝 ,也在不断地解体和沉没--或是死去,或是溜出我们的生活之外,或是我们自己已然改变.--普鲁斯特 [前言]上期我们详细讨论了bounce rate中的一些大众智慧,为大家说明了"过犹不及"的道理,bounce rate过低并非好事,bounce rate过高

《流量的秘密: Google Analytics网站分析与优化技巧(第3版)》一2.2 网站分析中的cookie

2.2 网站分析中的cookie 流量的秘密: Google Analytics网站分析与优化技巧(第3版)页面标签技术使用cookie追踪访客.cookie是网站服务器传送给浏览器的一个很小的文本文件,它可以在特定的网站上持续追踪访客的活动.访客的浏览器在本地硬盘中以"名称/值"的组合形式存储cookie信息.cookie分两种:永久性cookie,在关闭浏览器并重新打开时仍然有效:会话期cookie,只在访客浏览网站的期间有效. 对于网站分析,cookie的主要目的是使用匿名访客I

网站分析的数据来源

Avinash Kaushik在他的<Web Analytics>一书中将数据的来源分为4部分:点击流数据(Clickstream).运营数据(Outcomes).调研数据(Research/Qualitative)和竞争对手数据(Competitive Data).点击流数据主要指的是用户浏览网站时产生的数据:Outcomes我更习惯叫做运营数据,主要指用户在网站中应用服务或者购买产品时记录下来的数据:调研数据主要是网站通过某些用户调研手段(线上问卷或者线下调研)获取的一些定性数据:Comp

网站分析需要数据指标支撑

随着全球互联网的高速发展,越来越多的网民朋友通过互联网平台获取海量信息.数据的运用已经成为了未来竞争和增长的基础,网络数据的关注度也逐年增加,随着用户群体的扩大,只有通过数据分析才能促使企业在竞争中适者生存,并且通过数据分析加以驱动决策,进而才能提高企业综合竞争力.那么,对于网站如何以数据驱动决策?网站分析需要把握哪些基本数据呢?   网站数据分析具体指标: 1.网站流量指标 网站流量指标是衡量网站基础设置是否合理的重要依据,其中最为重要的指标包含IP(独立IP数).UV(独立访客数).PV(页

网站分析、数据统计利器-Google网站管理员元工具

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 大家好,我是爱去免费网.前段时间忙于新的工作,一直没多少时间更新网站.可能对爱去免费网感兴趣的朋友已经发现,网站的百度收录从上个月就被K为数量1了.但是百度还算仁慈吧(呵呵,开个玩笑),起初网站关键词全部被K到100位以后了.如:免费PHP空间.免费ASP空间.国外免费空间等等主词. 怎么说呢,现在的搜索引擎已经和前两年不一样了.虽然外链.更

网站分析中常见的流量变化原因列举分析

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在<网站流量异常变动的8种常见原因>那篇文章中,我对整站流量的变化原因进行了分析和汇总.本篇文章我们将继续这个话题,讨论网站流量变化背后的原因.与上次不同的是,这次我们将深入到各个细分流量中,如:直接流量,付费搜索品牌词等等.针对每一组细分流量背后可能的原因进行分析.下面我们就开始逐一列举分析. 一,直接流量 直接流量通常是指访问者直接输入网址或从收藏夹中访问网站的流量,但在现实中情况要复杂的多,所有无法获得引荐来源的流量都被归为直接流量,例如: