别被数据分析师骗了!用数据说谎的三种办法

雷锋网按:日前,亚马逊欧洲商业智能部门负责人、资深数据科学家 Karolis Urbonas,在发表了题为《用数据说谎》的博文。文章总结了用数据误导人最常见的三种方法。这三种做法,或许大家在潜意识里都知道,但未必会把它们与“用数据说谎”联系起来。

当然,作者的目的,是希望数据科学、机器学习从业者引以为戒。全文由雷锋网编译,做了不改变原意的删改。

Karolis Urbonas

“用数据说话”,这句话常被大家挂在口边。

自大学起,那些希望我们养成批判、逻辑思维的老师,就一遍遍向我们灌输“观点”、“经验主义”与“客观事实”的区别,引导学生如何正确看待“严师出高徒”、“原汤化原食”、“君子坦荡荡,小人长戚戚”、“天将降大任于斯人也,必先……”等等古代“智慧”结晶。

因此在潜意识里,会有人认为,高质量数据代表的就是事实,而基于可靠数据的分析与结论,也应当是客观、理性的。

但往往并不如此。

举个例子,数据分析师会有意无意地有所倾向、偏颇,这很难避免;还会受到来自周围同僚、上司的压力或是期望,又或是项目赶时间。除此之外,数据分析和解读的过程也存在天然的风险,导致最后的“说谎”行为。即便数据科学家的初衷十足高尚,最后的结果也未必能保证真实、客观。

闲话少说,一起来看看用数据说谎的三种方法。

总是用平均数

平均数是有史以来被滥用最严重的参数,到处都有人利用它来创造谎言。

当平均数被提供,请注意:除非数据是标准分布(基本上从来都不是),否则它不能代表任何反映真实情况的有价值信息。这背后的原因很简单,用通俗的话来讲,就是大家常说的“我上司收入 100 万,我收入 20 万,两人的平均收入是 60 万”。在理论上讲,平均数根本无法反映数据的结构分布,而该信息至关重要。平均值并不是一个非常可靠的度量参数,它对边缘数值以及任何偏离标准分布的样本都非常敏感。

统计学家弄明白这一点已经有几十年,但企业、各类机构、政府仍然把平均数作为核心统计参数,并基于它来对涉及十亿、百亿、千亿规模的问题做决策,并且掩盖真实问题。

解决方案是什么呢?

不要用平均数!从今儿起不再用它,并有意识地考虑数据分布,不要弄出来一个只对个别情形有参考意义的统计报告。第一步,可以从使用中位数开始,并且用 top 99%、bottom 1% 数值来对数据进行概括。

平均数作为各门学科的权威参数已经太久,它有太多不加质疑的盲目追随者,我们几乎已经可以把它看做是宗教。这事儿到底是怎么发生的呢?很久很久以前,自然科学的标准分布假设(雷锋网(公众号:雷锋网)注:使用平均数的前提)蔓延到了其他领域,比如商务分析以及其他商业数据应用。这毒害了好几代的数据分析师。

证实性偏见(ConfirmationBias)

这又是一个很经典的误导途径,与心理学紧密相连。它发生于你搞清楚将解决的问题之前,当然,这一步也会影响该效应。数据分析师看待需要解决的问题的方式或角度,能在根本上改变原本的客观立场。一旦牵涉到情感(不论是表达出来的,还是潜在的),显而易见的,该效应会大幅加强。对于该效应,一般很难甄别,这也是区别普通数据分析师和大师级分析师的主要分水岭。

一个十分典型的场景,是在时间不足的情形下被要求完成数据分析。这会产生尽快下结论的压力——通常会有重要决策要根据分析结果来制定。这时会有许多偏见、偏差一股脑儿地涌入项目中,证实性偏见却是数据分析师最心甘情愿上钩的一种。数据分析师随后根据心里已有的假设,忙着在最短时间内回答或解决研究问题。这意味着第一个出现的伪相关就有可能被当做是答案。该情况下,分析师会主动寻找能证实原先假设的证据,而可能对其它证据视而不见。这便是“用数据来配合假设”

这发生于数据分析师先入为主,认定该问题有一个“正确”的时候。当分析师有意寻找符合该假设的证据,该偏见便成功地把分析过程引到歧路。随后,分析师对数据的压缩、调整,仅是为了贴合与假设一致的结论。这里,非常重要的措施,是在一开始就定义严格的研究要求,并收集支持正反两面结论的数据和证据。

数据科学家对于在数据中找出某种模式、合理解释,常常会心痒难耐。这时,他们很可能会忽视一个事实:并没有足够的数据来下结论、或回答问题。后者是完全正常的。这时候,也可能问题本身需要重新定义。

并不存在的模式

人脑是如此善于在混乱中发现模式或图案——有时,它们开始发现并不存在的模式。对于数据科学家而言,这是非常致命的。许多公司雇佣数据分析师就是为了发现模式,因而,发现的模式越多,证明该分析师的水平越高、洞察力非同一般,因为他看到了别人都看不到的东西。这类建立在谬误之上的成功,导致许多工作被聚焦于发现模式、分段以及“非同寻常的东西”。当然,许多时候这些都是正常存在的,真实数据中也会有许多噪音。

这就导致了很尴尬的局面——数据分析师“发现”了原本并不存在的模式,企业根据该结论做决策,然后这一决策影响了现实人群,竟然迫使该模式真的出现。简直是神奇。举个非常简单的例子:寻找消费者细分市场,然后试图把他们从一个市场区间“转”到另一个。当某细分市场被企业营销部门瞄准,想要把他们推向一个其实并不存在的区间,该神奇的现象就会发生,发挥现实影响。但是,这种事的风险很大,并且容易导向一系列昂贵的错误决策。

小结

这当然不是一个完整的“用数据说谎”列表。如要彻底学习,你应该学习心理学理论中其它能影响你的主观判断以及洞察力的认知偏差。 以上是最常见的数据分析陷阱,我看到许多分析师不小心掉进去,并非故意的制造出数据“谎言”而不是寻找真实情况。客观并不是一个容易实现的目标,它需要许多自律。

最成功的数据科学家,会把非常非常多的注意力放在提防这些偏见、偏差上,并对它们所能导致的这些谎言保持高度警觉。

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-07-30 04:49:40

别被数据分析师骗了!用数据说谎的三种办法的相关文章

从幕后走到台前 数据分析师眼中的大数据

数据,自从变成了当今社会仅次于能源资源的另一类重要资源之后,已经开始被越来越多的用户所重点关注,很多人也说当今的这个社会是大数据的社会,大数据时代到来了.伴随着大数据时代的到来以及大数据所导致的各类IT信息技术的飞速发展,数据分析师成为了近些年炙手可热的岗位. 然而伴随着数据的爆发式增长,相对应的带给企业用户机会的同时也带来了很多来自数据端的挑战,大数据在众多行业当中的应用也开始变得广泛起来.本期,笔者就和大家一起来聊聊从数据分析师的角度上来看,未来大数据将会面临到什么样的机会和挑战. 工具和人

较长数据无法在Asp页面中取出的三种解决方法

较长text型数据无法在Asp页面中取出的解决办法 在Asp页面中向记录集取长text型数据时,出现如下错误现象时: Microsoft OLE DB Provider for ODBC Drivers 错误 '80040e21' Errors occurred 可有以下三种解决办法: (一)使用rs.open sql,conn,1,3方式打开记录集 (二)将该列放在第一列取出,比如comment里存放有较长的text内容,取记录集内容的时候,先来个comment=rs("comment&quo

福州SEO:浅谈SEO菜鸟与数据分析师的区别

数据分析的作用,对于每一个Seoer是不必说的.数据分析在网站运营.网站优化.网站推广等方面起着支撑整个过程的作用;数据分析也是作为一名Seoer必须掌握的一项技能.那么,何谓数据分析呢?数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用.数据分析可深可浅,要想做好数据分析,通常要掌握数据分析的六个步骤是:明确分析目的和内容.收集数据.数据处理.数据分析.数据展现.报告撰写. 数据分析师指的是不同行业中,专门从事行业数据搜集.

CDA数据分析师协会等级认证证书

CDA数据分析师协会等级认证证书 (Certified Data Analyst  Certificate) CDA数据分析师证书由CDA数据分析师协会官方颁发,此证书在国内需通过人大经济论坛举办的CDA等级认证考试后获得.此证书可作为企业事业单位选拔和聘用专业人才的任职参考依据.  一.考试简介:  CDA(Certified Data Analyst),全称"注册数据分析师",由"CDA注册数据分析师协会(Certified Data Analyst Institute)

如何成为一名优秀的数据分析师?

本文将从一个数据分析师的所需要的整体知识框架和能力入手,和大家分享一个优秀的数据分析师是怎样炼成的. 主要会讲数据分析师的演变.数据分析价值体系.数据分析师必备的四大能力.七大常用思路以及实战分析案例. 近些年,互联网公司对数据分析师岗位的需求越来越多,这不是偶然. 过去十多年,中国互联网行业靠着人口红利和流量红利野蛮生长;而随着流量获取成本不断提高.运营效率的不断下降,这种粗放的经营模式已经不再可行.互联网企业迫切需要通过数据分析来实现精细化运营,降低成本.提高效率;而这对数据分析师也提出了更

七周成为数据分析师—Excel实战篇

本文是<七周成为数据分析师>的第三篇教程,如果想要了解写作初衷,可以先行阅读七周指南.温馨提示:如果您已经熟悉Excel,大可不必再看这篇文章,或只挑选部分. 在Excel技巧和Excel函数后,今天这篇文章讲解实战,如何运用上两篇文章的知识进行分析.内容是新手向的基础教程.曾经有童鞋向我反应没有Excel数据练习,所以这次提供真实数据.为了更好的了解数据分析师这个岗位,我用爬虫爬取了招聘网站上约5000条的数据分析师职位数.拿数据分析师进行数据分析.数据真实来源于网络,属于网站方,请勿用于商

数据分析师的职位划分

不同公司对数据分析师的职位划分稍有不同.在一些中小型企业,在没有成立独立的数据中心前,数据分析的相关职位往往是在市场部.运营部的管辖之下,人数通常在2-4人不等.对于一些大型企业,有独立的数据分析部门,团队成员也在数十人到百余人不等.对于职位头衔,有的按行政级别划分,如专员.主管.经理.总监等:也有的按专业水平划分,如助理.高级.资深.专家等. 数据分析职位整体上分为两大类: 数据分析师: - 专业能力成长路径:助理数据分析师-数据分析师-资深数据分析师-高级数据分析师 - 行政职位晋升路径:数

企业最需职业排行榜第一位——数据分析师

数据统计分析师,又被称之为数据分析师,目前多数企业招聘相关人员时,多用数据分析师.高级数据分析师.资深数据分析师等作为岗位名称发布招聘信息.由于数据分析师的工作成果通常没有直接产出,多作为职能支撑,所以又被称之为贤内助. 为什么数据分析师(数据统计分析师)是企业最佳贤内助? 1.数据时代的到来,企业经营决策已经不再完全是根据领导拍脑袋决定.越来越多的企业已经开始利用数据作为经营决策的支撑,这其中最重要的角色就是数据统计分析师. 2.数据统计分析师就像是企业的家庭医生,它能够通过数据监视企业经营的

如何成为一名合格的数据分析师

"21世纪什么最贵,人才",在目前大数据时代下,什么最难找,什么最贵,实现数据价值的人,数据分析师. 但是对于数据分析师的认识,比较极端,但对数据分析师价值的认识正在回归理性.很多人对数据分析师的期望,是无所不能,向诸葛亮一样"指点江山,运筹帷幄",招了数据分析师,好像一切困难迎刃而解. 的确,好的数据分析师可以在企业中发挥很大的价值,可以对公司未来的用户行为进行提前预测,从而为营销人员提供更好营销参考.例如,以下案例: 女儿竟然怀孕了?! 美国第三大零售连锁超市T