数据是一种信仰—他到底是否值得信赖?

文章讲的是数据是一种信仰—他到底是否值得信赖,利用数据来驱动商业决策的制定,对于现在的企业来说,显得尤为重要,企业可以因此知道如何向自己的客户群做销售以及服务。然而IBM调查发现,有大约三分之一的企业领导不相信他们用来做决策制定的信息。当企业领导人不相信自己的数据的时候,他们极有可能不会支持公司花费精力收集更多数据,反而不去利用数据。那么你可以有什么样的办法让你的执行者对他们所使用的数据信息深信不疑呢?那么首先,你应该让他们清除的认识到数据本身所具备的真实性。

            

  数据真实性

  现如今,我们可以用很多不同种类型的性质来描述数据,在大数据时代,其中有三种关于数据的特性——规模、速度和多样性——已经主导了人们在谈论大数据话题时候的内容。但是还有一些人又为数据的特性引入了另外三种特性(比如Value-价值,Veracity-真实性,Viability-可行性)。但是Seth Grimes正确地指出了这三种新特性正在误导人们对大数据的理解,因为和三种特性并没有清晰地向你解释你的数据有何“大”之有。尽管如此,我们还是需要考虑数据的这些特性——你的数据体量庞大还是渺小,稳定还是不断移动,结构化的还是非结构化的。

  你的数据的真实性关乎到数据的准确和可信赖程度,也关乎数据分析得到的结果。你的数据的真实性会因其生成、收集以及分析等过程中所产生的不同类型误差而收到影响。如果你的数据在处理过程中引入越多的误差,那么你的数据的可信任程度就不会很高。

  EnsuringVeracity of your Data 务必确保数据的准确真实性

  在2013年年初,Kate Crawford(凯特·克劳福德)在《哈弗商业评论》期刊上面以一篇名为《大数据背后隐藏的偏见》的文章发表了自己对于数据“真实性”的这种特质的观点。“如果你的足够量的数据的话,它的数量就已经不言而喻了”——对于这个观点的争论,凯特正确地阐述道人们为数据赋予了发言权;人们从数据当中得出推断,并赋予了数据跟多的内涵。但不幸的是,人们将自己的偏见引入到了其中,无论是刻意为之还是出于无意,这种做法都将数据的质量大打折扣。

  如果向提高数据的真实性,那么你必须降低来自不同误差源的发生频率。这些误差源往往和以下方面息息相关:采样方法、缺失数据、科研偏见以及差强人意的测量方式等。在你利用数据做出决定之前,请先认真回答下面的问题:

  1.What is (are) your hypothesis(es)? 你的假设是什么?

          

  “大数据技术就是找到各个变量之间的关联性而非检测有这种关系存在的原因”——尽管该观点广受欢迎,但是我相信对于企业的长期价值而言,大数据技术应该是弄清楚变量之间的偶然关联问题。假设实验是为了辨认出为什么变量相互之间会存在某种关联,以及驱使这些被发现的关系的基本流程。假设实验有助于通过试错法改进分析模型,这样做可以找到因果变量并帮助你从不同的条件当中找到新发现。

  在过剩的变量和数据集的帮助下,企业能够快速检测出成百上千种关系。发现数据中存在的统计学关系的可能性会在检测关系的绝对数量时有显著的提升。经常因为几率的原因,当变量之间的关联性不存在原因的时候,实际上,我们可以发现两个变量之间存在的统计学关系。因此,如果你使用这些虚假的发现结果为支持你现存的想法的化,那么这样做的结果就是你的决策肯定不是最优的。

  你能做的就是先做一个假设,然后对其进行测试。

  2.Whatare your biases? 你的偏见有哪些?

          

  人们总是寻找/记住/解释支持他们现有观念的结果,并忽略或者低估那些无法支撑他们观点的结果。这些被当作确认偏见的认知捷径,往往导致你对数据的错误结论。

  你能做什么呢?具体来讲,你需要做的是就是查看你的数据,并从中得到可以驳斥你的信念的证据。如果你在预测消费者忠诚度的是时候人为产品质量远比服务质量重要的话,那么你一定要为服务质量带来的相关影响搜集证据。

  你也不要依赖你的记忆。在任何一种数据的基础上做决策的时候,记得要引述那些有相关数据出现的报告或者研究案例。参考你的信息员可以帮助其他人辨认信息并帮助他们理解你的决策,并让他们知道你将如何实现你的决策。如果他们得到结论和你大相径庭,一定要弄清楚你的结论和别人相比存在怎样的差异(数据质量?不同的指标?还是不同的分析?)

  你还要使用推理统计学方法从随机杂音当中区分出真实的、系统性的以及有内涵的数据差异。在图片下面要加上语言描述。清晰的描述可以保证你的图片不会引起太多的误解。你也可以让来自不同领域的专业人士(比如IT或者销售)为你进行阐述,,这样的话你会得到关于一个数据的不同角度的解读。

  3.What isthe sample size? 样本的大小如何?

  我们几乎很少(或者根本没有)获取到那些对我们感兴趣的所有群体。相反,我们依靠从该群体中提取出的样本的测量来对这些群体进行推断。比如从我们的客户群(样本)中的一部分收集消费者满意度信息来了解整个消费群体的满意度。

  当你使用样本来理解整个群体情况的时候,你不得不去了解样本中存在的误差。样本误差可以反映出来自客户群体数据的样本的误差。因为这种样本仅仅是整个群体的一个子集,我们的评估仅仅会因为样本只是整个消费群体的一部分,而涵盖误差在里面。

  你可以做什么?你可以利用推断统计学方法帮助你进行理解,如果你发现样本有可能会反映出整体人群当中的情况。

  4.What is the data source? 数据源是什么样子的?

        

  即使当我们有大量数据集的时候,其中存在的样本误差可能会因为数据量的巨大而有所降低,我们需要知道数据源在哪里——因为数据不会凭空产生。我们可以刻意产生一些数据并进行收集,然后通过这些数据来解决问题。比如,我们可以分析在飓风桑迪发生期间人们发布推特的地点,数据向我们展示了和新泽西相比,更多的博文来源于曼哈顿的闹市区。依靠简单的数据计数,你会发现飓风的主要攻击地点位于曼哈顿闹市区。但事实上,飓风袭击的是新泽西,但是飓风让新泽西电力供应瘫痪,所以人们一时无法使用推特发布推文。

  除此之外,据估计仅有18%的美国青年网民使用推特,其年龄主要分布在18到29岁之间。同样,在2012年仅有8%的人使用移动设备进行购物并通过推特发布自己的购物体验。推特,在商业情景当中,代表了一小撮,也许也是一种有偏见的数据集。

  你能做什么?仔细审查数据源,看看数据是否适合有足够信息量来支撑你的发问。可以考虑使用不同的数据源对你的假设进行测试。多重线路的聚合证据总比单一线路的证据更有说服力。

  最后的想法

  商业决策的质量取决于商业数据的质量(以及使用数据的预测分析模型)。如果你从最最华而不实的分析模型当中进行推论的时候,而且你的数据建立在不可靠而且无效的信息基础之上,那么当你的模型在实际中运行时(比如你的模型可以预测现实),整个过程就像炼狱一样。就像业内人士说的那样——输入的是垃圾,输出的也是垃圾!

作者:Bob Hayers 

来源:IT168

原文链接:数据是一种信仰—他到底是否值得信赖?

时间: 2024-09-11 15:21:27

数据是一种信仰—他到底是否值得信赖?的相关文章

数据是一种信仰——他到底是否值得信赖?

利用数据来驱动商业决策的制定,对于现在的企业来说,显得尤为重要,企业可以因此知道如何向自己的客户群做销售以及服务.然而IBM调查发现,有大约三分之一的企业领导不相信他们用来做决策制定的信息.当企业领导人不相信自己的数据的时候,他们极有可能不会支持公司花费精力收集更多数据,反而不去利用数据.那么你可以有什么样的办法让你的执行者对他们所使用的数据信息深信不疑呢?那么首先,你应该让他们清除的认识到数据本身所具备的真实性. 数据真实性 现如今,我们可以用很多不同种类型的性质来描述数据,在大数据时代,其中

数据是一种信仰

对于数据分析的态度,有几句牢骚要发泄一下,纯属这几年工作的个人心里感受. 面试后的感想 这个周末我一直在面试,总共三十多人,只有一半能到我这一关,不管是工作了几年的,还是一点工作经验都没有的,不管是名牌大学的还是一般学校的,他们对数据的态度都让我有些失望. 我问他们,假如我是京东商城的CEO,周一早上你要给我看上周的三个数据,你会选择什么数据? 几乎所有的人没有1秒就回答,比如流量.转化率.交易量等. 我接着问,你听清楚我的问题了吗,我说是给CEO看的.接着大部分人会倒抽口气说,也许CEO不会关

设计师的品牌意识:好品牌可以成为一种信仰

为什么要谈品牌? 这是源于一件让我印象非常深刻的事情:有一个大公司的设计师,在公司官方博客上发表了一篇有关iPhone的文章,由于他在文章中把"iPhone"拼成了"iphone",遭到了一个读者愤怒的指责.这名读者激动的斥责作者以及他所在的公司,是多么多么的不专业. 这件事让我很愧疚,因为如果当时让我去拼,我也一定会拼错.从这件事情里,我总结出了三点:1.苹果的品牌做的非常好 2.我们作为大公司的设计师,也许并没有别人想象中专业 3.只有懂得尊重品牌,别人才会尊重

MVC、MVP、MVVM三种框架模式到底怎么理解?

问题描述 MVC.MVP.MVVM三种框架模式到底怎么理解? 如题,这三个到底该如何理解? 1.M到底只是数据,还是数据+业务逻辑?如果是前者,为何不叫Data? 2.MVP里,M对V有没有影响?是不是说,P处理后发现存储的数据需要改变,就通知M改变,显示的数据需要改变,就通知V改变? 3.MVVM与MVP相比,进步的地方在哪里? 4.对于软件开发者与WEB全栈开发者而言,这三种框架模式的意义相同吗? 看了网上很多这方面的说法,感觉众口不一,枯涩难懂,哪位前辈能彻底解惑.以正视听呢? 解决方案

开源云:一种信仰体验?

术语"开放云"并不是一种新的从属的云计算流行词,它已经很快成为一种信仰.那么你在哪个教堂里祷告呢?OpenStack的教堂.http://www.aliyun.com/zixun/aggregation/13363.html">CloudStack的教堂.Eucalyptus的教堂,还是其他的开源云参与者的那个房子里? 云计算市场向开源方向迈进有很多原因.首先我们喜欢同不用感激任何单一厂商的技术概念工作.其次我们可能驱动技术变革,使其更好地符合我们的需求.最后开源云的价

吴金豪:让慈善成为一种信仰

达.精神愈空洞,人们的价值罗盘必将南辕北辙.一味崇拜物质,必将因个体理性带来集体的非理性,酿成灾祸 文/吴金豪 转型期.大时代. 累积社会资本.引领良性发展.提升道德水准的历史性诉求,伴随新富阶层的崛起以及近年来自然灾害的频发,为公益慈善的发展提供了一个宽阔的时代舞台. 自2004年新的<基金会管理条例>颁布以来,慈善事业在中国开始迅猛发展,乃成燎原之势.2008年汶川巨震,更大大改变了中国慈善业的固有格局.慈善,再不只是非营利行业小圈子里谈的事儿,日益成为国人关心的重要公共话题. "

PHP获取POST数据的几种方法汇总

 本文给大家汇总介绍了PHP获取POST数据的几种常用方法,这里分享给大家,有需要的小伙伴来参考下吧.     一.PHP获取POST数据的几种方法 方法1.最常见的方法是:$_POST['fieldname']; 说明:只能接收Content-Type: application/x-www-form-urlencoded提交的数据 解释:也就是表单POST过来的数据 方法2.file_get_contents("php://input"); 说明: 允许读取 POST 的原始数据.

胡安军:创业需要一种信仰

一位复旦大学的MBA,本可以和他的大多数同学一样,拿着丰厚的薪水,过着优雅的职业经理人生活,但他没有选择成为其中的一分子,而是选择了另一条崎岖之路"傲然独往". 他叫胡安军,中国讲座网的创始人兼总裁.创办中国讲座网是他的第四次创业,前两次是做外贸,第三次是做咨询,都没怎么赚到钱.2004年他在读了复旦MBA之后,独自成立了中国讲座网. 目前,该网站的各类讲座数量已经超过4000部,拥有注册用户12万多人,每天访问量超过10万,成为中国最大的在线讲座网站. 卖掉房子只为创业 谈起他是怎么

站长访谈:对自己的事业树立一种信仰

资金不是第一难题 记者:如何看待目前整个web2.0行业的问题?如资金短缺.盈利模式难题.风投相对缩减等. 试用网徐乐:不要急躁,不要做虚假流量,脚踏实地想好自己要解决什么问题,宁可起步慢,不做假最后骗了自己. 绿豆读书网站长方军:目前现在整个web2.0行业资金短缺只是表面现象,其实主要还是现在的社区网站缺乏独特的主题和良好的盈利模式.如果有专业的内容以及良好的模式,盈利只是时间的问题. 海峡钓鱼网站长李子微:国内针对社区的法律严格,合法化门坎太高.很多东西还不规范.  出城网站长左燕庆:"看