统计数字会说谎

   在我们的工作、生活中,经常能接触到各种各样的数据、调查结果,这些数据和结果都是正确的吗?哪些数据有误导性?哪些数据有限定条件?哪些数据不可以比较?本次分享告诉大家如何解读数据,如何看透数据的真相!

 

【案例一】样本的代表性

1936年《青年文摘》对美国总统大选的结果进行预测,结果失败,问题出在调查方法上(调查对象是其读者,调查方法为电话调查)。1936年有能力购买电话和订阅杂志的人并不能代表所有的选民,至少在经济上,他们是一个极其特殊的群体,是有偏的,事实后来证实他们有许多人是共和党的选民。但是如果调查选择的样本是代表性的,能代表全部选民那么调查就能得到准确的预测结果。

l  盖洛普为什么预测美国大选的结果很准确?他们采用抽样调查方法,在全国各州按比例选择调查对象对总体有很强的代表性 。

【案例二】样本量是否足够?

我们来调查“喜欢大番茄的人多还是小番茄的人多”,究竟调查10个人、20个人还是100个人得出的结论是准确的呢?我们选择多少个人作为调查对象,即需要多少个样本量的决定因素有很多,总体的大小,总体内部的变异程度等等。总体的大小很容易理解,调查全市市民和调查一个班级哪个需要的样本量大呢?显然是前者。至于总体内部的变异程度,举个例子,如果总体只有100个人且这100个人差异不大,或许十几个样本就已经足够了,但是如果这100个人每个人差异性都很大呢?是不是要选取更多的样本才能更真实反映100个人的情况呢?

举一个用研的例子:对于整个淘宝网买家的调研,基本上我们要保障1500的样本量,而对于某一类目卖家的调研可能几百就足够了(比如机票等类目卖家较少)。

PS:抽样经验:1500以上的样本量基本就能很好地代表总体,无论总体有多大。

【案例三】敏感、隐私话题

对于一些敏感、隐私的话题,被调查者对于你的提问可能不会反映最真实的情况。如果采纳这些不真实的信息,会使得调查结果不准确,比如图中询问“您更喜欢阅读哪本杂志?”,可能有很多人明明更喜欢阅读《东周刊》却选择《凤凰周刊》,原因在于担心选择前者可能会被大家认为是一个喜欢偷窥隐私的人。因此对于敏感隐私的话题,不必面对面调查,可以采用集体填答问卷的形式或者电话调查的方式,并且说明我们的保密原则,结果就会好很多。另外有些隐私话题不用直接询问,可以从不同角度确认这些信息,例如询问“每月您的消费支出水平”,我们可以通过询问“购买哪些品牌的衣服”“经常去哪儿就餐”等问题从侧面收集资料。

【案例四】平均数的陷阱

假设你是某个小型制造企业的3个合伙人之一,到了月底给企业的90个职工发了99000元,你和合伙人每人共获得5500元的工资,最后还余下21000元作为利润可供你们3个合伙人平分。你会选择哪一种表述公示呢? 肯定是后者,因为显得收入分配更公平,但其实每个人拿到的钱还是和前者一样。因此需要特别注意这些平均数背后的真相。

l  国家统计局发布《2009年国民经济和社会发展统计公报》,其中称“70个大中城市房屋销售价格上涨1.5%”,数字公布之后,引起了代表委员和社会舆论的广泛质疑。从数字看起来房价上涨很少,但为何与我们的感受不一致,主要原因还是在于平均数,这一数字对房屋种类、地区、地段、楼层、朝向、时点等因素而差异较大的样本进行综合平均统计,过度消除了价格变化。

l  统计局公布1月CPI数字,因为春节假期央行再度加息,市场曾预期1月CPI必将再创新高,甚至有望接近6%数字,可实际数字4.9%却让人颇为意外。原因就是统计局CPI统计的新权重:居住类、医疗保健类、娱乐教育文化类价格权重上升,食品类权重下降。而食品类价格却是百姓感受最明显的一个指标,因此平均时权重差异也使得我们感受与数字之间产生差异。

【案例五】一样的数据,不一样的图形

为了让没有直接接触数据的人也能直观地感受到其中的一些信息,人们发明了各种各样漂亮的统计图表。但是就是“客观”的图表里面也存在着各种各样的陷阱。在制作统计图表时,一个常用的欺骗手法便是改变统计图形的坐标尺度,从而改变了整个图形的增长趋势或是陡峭程度。

天平两侧的图是用同一组数字绘制的,只是改变了纵坐标的刻度范围,却使得两幅图看起来具有完全不同的增长趋势。

此图反映了某年9月27日某时的黄金价格走势。上面两幅图描述的是相同时间段的黄金价格走势,显然,左边的金价急升更容易让人产生激动的心情。即使标出了横纵轴的刻度,这两幅图给普通人留下的第一印象也大不一样。

【案例六】结论的使用范围、限定条件

对于这一则广告,从广告词来看,此感冒药效果很好,但是在这里我们需要问两个问题:在人的喉咙里会不会发挥作用?这些细菌是感冒细菌吗?显然如果广告词没有标明结论的限定条件,我们并不能就此认为此感冒药到底有何效果。因此我们特别要关注有些结论的限定条件,并不是所有条件下结论都成立。

正是由于结论受到很多条件的限制,我们在调查中如果要得到较为稳定的结论,则需要探究一些较为稳定的现象。用户的行为经常在发生变化,如果我们仅仅是关注用户的行为,可能我们要不停地去做重复的调查,但是除了行为外,其实很多用户需求层面的东西是比较稳定的,我们的调研也会重点关注这些方面,行为会变但是需求层面的东西会比较稳定,因此我们不会仅仅设计一些很操作层面的问题,拿酒店频道举例,我们不会只提问“您为什么在查询之后预订我们的酒店”,我们还会询问“您经常去哪些渠道预订酒店”“您经常住哪一类型的酒店”等等,从各个方面去看用户最内在的需求。

【案例七】口径不同的数字不可比较

如果告诉图中所示信息,你肯定会认为美国海军的死亡率低于纽约市民。但是大家想一下:美国海军与纽约市民的年龄结构是一致的吗?海军都是青壮年而纽约市民中很一部分是死亡率极高的老年人,这两个人群的死亡率可以比较吗?显然是不行的。国家统计局公布2009年上半年,中国城镇单位在岗职工平均工资为14638元,与上年同期相比增加了1674元,增长12.9%。有网民称,统计数据与自己的收入不符。为何数字公布与网民感受不符呢?关键在于纳入国家统计局口径的不是所有劳动人口,而是城镇国有单位、集体单位和股份合作、联营、有限责任公司、股份有限公司、外资和港澳台商投资单位的员工,不包括私营单位、个体工商户和灵活就业人员,而往往低收入人群广泛存在于漏掉那部分人群中。因此在看到一个统计结论时一定要仔细辨清其统计口径。

【案例八】真的是因果关系吗?

如果给出全班所有成员的成绩,又给出是否抽烟的情况,你发现抽烟的学生成绩都比较差,你是否就能得出“抽烟导致低分”的结论呢?抽烟与低分之间可能还有性格、家庭等各方面的因素。两个变量一起变动只能代表他们相关但不能代表他们是因果关系。

此图给出了两种很容易被我们误解为A与B之间有因果关系的情况,虽然A与B同时变动,但是他们的变动都是由Z引起的,而不是本身的因果关系,这样的情况我们需要特别注意。

总结以上八个案例,特别提示大家注意以下问题:

□  根据抽样得出的结论一定要采用具有代表性的样本

□  在样本量足够时误差才会较小,结论才会可靠

□  对敏感隐私问题需要多方验证

□  看到平均数时首先问问是平均了什么?

□  同一种数据的不同展现方式带来的陷阱

□  大部分结论都有其限定条件和适用范围

□  口径不一致的数据不能拿来比较

□  两个数字同时变化并不能用于说明因果关系

如果在看到很多数据以及结论的时候想到了以上八个问题,并且在心中回答出以下四个问题:“研究方法科学吗?”、“表达方式有误吗?”、“这些数字可以比较吗?”、“结论有限定条件吗?”,那么恭喜大家练成了火眼金睛,不用害怕掉入任何数字的陷阱了!


原文发布时间为:2013-08-6


时间: 2024-08-31 21:11:23

统计数字会说谎的相关文章

关于网页设计的一些统计数字

昨天,我看了一点Website Optimization这本书. 书里有一些统计数字很有趣,下面就是一点摘录. 网页的大小 ● 2003年,全世界网页的平均大小是93.7KB,2008年增长到312KB,5年中翻了3.3倍.(这里的网页大小包括图片.CSS文件.Javascript文件.flash文件等等.) ● 每张网页包含的对象数,从25.7个上升到49.9个.(凡是需要发出独立http请求的网页元素,都算作一个对象.) ● 据统计,每增加1个对象,网页载入的平均时间就增加40毫秒(宽带)或

python计算书页码的统计数字问题实例_python

本文实例讲述了python计算书页码的统计数字问题,是Python程序设计中一个比较典型的应用实例.分享给大家供大家参考.具体如下: 问题描述:对给定页码n,计算出全部页码中分别用到多少次数字0,1,2,3,4...,9 实例代码如下: def count_num1(page_num): num_zero = 0 num_one = 0 num_two = 0 num_three = 0 num_four = 0 num_five = 0 num_six = 0 num_seven = 0 nu

关于统计数字问题的算法_C 语言

一本书的页码从自然数1开始顺序编码直到自然数n.书的页码按照通常的习惯编排,每个页码都不含多余的前导数字0.例如第6页用6表示而不是06或006.数字统计问题要求对给定书的总页码,计算出书的全部页码中分别用到多少次数字0,1,2,3,.....9. 这个题目有个最容易想到的n*log10(n)的算法.这是自己写的复杂度为O(n*log10(n))的代码: void statNumber(int n) { int i, t; int count[10] = {0}; for(i = 1; i <=

统计数字的误读与误导

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 前几天说过,我越来越觉得SEO是门艺术,而不是,或不仅是,技术.原因之一是,很多时候我发现统计数字越来越不能说明问题.明明统计数字表明应该增加关键词密度(只是举个例子),可你这么做了,不一定有效果,还可能事与愿违. 单纯看某一个统计数字,往往会误读,导致错误结论.要准确从统计数字中看出实质和真相,得考虑统计之外的很多因素.关于SEO的例子,下

统计数字的误读和误导

前几天说过,我越来越觉得SEO是门艺术,而不是,或不仅是,技术.原因之一是,很多时候我发现统计数字越来越不能说明问题.明明统计数字表明应该增加关键词密度(只是举个例子),可你这么做了,不一定有效果,还可能事与愿违. 单纯看某一个统计数字,往往会误读,导致错误结论.要准确从统计数字中看出实质和真相,得考虑统计之外的很多因素.关于SEO的例子,下次再说.今天说说前两天Google股价大跌的事. 2月28号左右,comScore公布统计数字,指出Google2008年1月份的广告点击次数比07年12月

统计数字在SEO中的局限

前几天谈了统计数字的误读和误导,今天谈谈统计数字在SEO工作中可能造成的误读和误导. 一直以来,经常有朋友跟我建议,是否可以开发一种比较全面的SEO工具.说实话,SEO工具确实是一个很好的主意.因为SEO服务,顾问和咨询都不是一种可扩展的模式. 像以前说的,卖产品还是卖服务?想发展的更大,就要往http://www.aliyun.com/zixun/aggregation/7564.html">产品转化.卖服务,卖的就是时间,而时间是无法扩展的.在某些高度专门化的领域,想把知识和技巧传授给

五大统计数字看2017网络安全

预测和观察为网络安全行业提供全方位视角  下面这些顶层数据总结了去年的网络安全行业,暗示了未来5年该行业会有的样子. 一.6万亿 2021年,网络犯罪损害造成的损失将达每年6万亿美元.始于网络犯罪,也终于网络犯罪.没有网络犯罪,也就无所谓网络防御了.网络安全社区和主流媒体很大程度上赞同该预测,虽然去年的年度网络犯罪损失只有该预测的一半.美国总统特朗普说:"目前为止,美国增长最快的犯罪就是网络盗窃." 二.1万亿 2017到2021年间,网络安全开支将超1万亿美元.网络犯罪一浪高过一浪的

北京的蓝天与统计数据

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 我是一个北京人,从小到大就没有离开过北京,北京上的幼儿园.小学.中学.大学,北京工作,北京结婚.如 果说对北京没感情那是不可能的,不喜欢这片土地我还能喜欢哪里呢?但今年北京的春天着实不怎么地,天空总是灰蒙蒙的,没有透亮过.从冬天开始就没有降水, 干的没有一点生气了.气温上升的很快,但没有明媚的春光,像是被捂起来蒸.时值两会,举国瞩目,北京市民

使用script查找DDL语句统计数据

在监控Oracle数据库的行为时,数据库管理员需要知道一个表或者索引的创建细节信息,例如日期和时间等.   在DBA_OBJECTS视图中,Oracle提供了一个新的叫做CREATED的栏,管理员可以使用它来显示对象创建时的数据.在实际开发中需要对DDL语句进行相关的审计时,这一栏可以作为鉴定的报告. 下面的script生成了一个很好的管理报告,它显示了过去14天内创建的所有表和索引. alter session set nls_date_format='YY-MON-DD HH24';set