大数据挑战:敢不敢不要加入人的判断?

这一论断听上去好像异端邪说,不是吗?现在的管理教育大都是对人们判断力的培养——也就是培养未来领导者“模式匹配”(pattern-matching)的能力,采用的手段通常是让他们接触大量的案例研究和其他类型的例证,以便让他们充满信心地游走在商界江湖。无论是否在商学院,人们总是告诉我们,要相信自己的本能和直觉,尤其在身经百战之后,我们完全可以靠本能和直觉在一眨眼的功夫就做出精准的判断。

但在当今的商业世界中(或许在其他领域也一样),这却是最有害的错误观念。正如我在以前的文章中写到的,人类的直觉很重要不假,但也是有缺陷的。就决定让哪些囚犯回家而言,假释裁决委员会的判断远不如简单的规则。在诊断乳腺癌方面,训练有素的病理学家的结论也比不上影像分析软件的结果。采购专业人员对哪些供应商将来表现出色的判断,远不如一种简单算法的预测更准确。美国顶尖级的法律学者对某一年最高法院判决投票结果的预测,也远远不如数据驱动型的决策规则更精准。

这样的名录我可以一直罗列下去,不过,我还是把最后一句话留给心理学家保罗·米尔(Paul Meehl)吧。早在近60年前,他就开始研究“专家”与算法孰优孰劣的问题了。他在职业生涯即将结束的时候曾总结说:“无可争议的是,社会科学的研究表明,数量众多的各种研究结果均指向了同一个方向,那就是:在从足球比赛的结果到肝病诊断的诸多预测中,你很难找出几个预测的结果是对专家和临床医生有利的,我们就此完全可以得出切合实际的结论。”

这个结论就是,我们应该将我们的很多决策、预测、诊断和判断交给算法,无论是无关紧要还是至关重要的事情。就算法是否能给我们提供更好的结果而言,已经是毫无争议的问题了。

当我们为专家呈上这样的事实时,他们的典型回应往往是“我知道数据和分析很重要,这也是我做出决策时要考虑它们的原因所在”。这种说法听上去很有道理,但实际上却大错特错了。研究同样清楚地表明:当专家把自己的判断添加到数据驱动型的算法或数学模型的结果中时(换句话说,当他们做出事后评价时。),最终结果往往比只用算法本身得出的结果糟糕。正如社会学家克里斯·斯尼德斯(Chris Snijders)所说的:“你看的结果往往是,专家参与的判断会介于模型单独判断和专家单独判断的结果之间。所以说,如果给他们提供模型,专家的判断结果会更好些,但依然不如模型独自判断的表现。”

而当我们把这个次序倒转过来的时候,也就是让专家为模型提供信息而不是相反的时候,结果则会好得多。如果专家的主观意见被量化,并添加到某一算法之中,其结果往往会得到提升。所以,病理学家对癌症病程的估计可以添加到影响分析软件的分析过程中,法律学者对最高法院对案件投票的预测也可以改善模型的预测能力。伊恩·艾瑞斯(Ian Ayres)在其卓越的著作《超级数字天才》(Supercrunchers)中曾写道:“不是让统计数据充当专家的仆人,而要让专家成为统计机器的侍从。”

当然,大多数组织都无法轻松完成这一转变。现如今,大部分决策者都确信自己很擅长此道,自己的决策毫无疑问要比没有灵魂、简单朴素的算法做出的决策更好,此外,他们还认为,拿走他们的决策权会削弱自己的权威、降低自己的价值。但显而易见的是,第一种观念是错误的,第二种认识也同样谬之千里。

那么,如何实现专家与算法之间角色的大逆转呢?倚重数据驱动型的决策过程,会让我们的组织、经济和社会因此而得到更好的结果吗?达到这样的目标需要透明、时间和对结果的认识,在这里,透明是指清楚说明“专家”的判断有多么糟糕,时间是指让这种理念广泛传播并得到充分理解,对结果的认识则能让我们为了得到更好的决策而愿意忍受这一艰难的转变。

在假释裁决委员会的例证中,我们能看到所有这三个因素的存在。正如艾瑞斯谈到的:“在最近25年中,18个州用量刑指南(sentencing guidelines)取代了假释制度。这些州在评估再犯的风险时已越来越倚重算法评估模型。

对投票者来说,糟糕的假释决定会产生严重的后果,所以,人为把握判断原则的假释裁决委员会乐得将投票权拱手相让。而在商业世界中,竞争,尤其是来自数据驱动型竞争对手的压力,会让略逊一筹的决策者举步维艰。我不知道多久会出现这种结果,但我可以信心十足地说,数据驱动型的企业,会从依然过度倚重专家的企业那里夺走更多的市场份额、客户和利润。

本文作者:佚名

来源:51CTO

时间: 2024-10-24 13:59:21

大数据挑战:敢不敢不要加入人的判断?的相关文章

处理大数据挑战:管理与监督

大数据挑战需要管理监督 对于一些组织来说,管理和分析超大规模数 据集的最大挑战之一就是搜索可以带来商业利益的有价值的信息,决定哪些数据 可以被丢弃. 例如:UPMC是一家总部位于匹兹堡的医疗保健网络机构,它 拥有20多家医院和超过五万名员工,该机构发现最近几年的数据存储突飞猛进地 增长.William Costantini是该公司综合业务中心的副主任,他认为很大程度上 是因为员工们不敢删除任何信息. Costantini说:"目前最大的问题是要 弄清楚哪些你可以清除,哪些你不能清除,因为每个人都

企业CIO解决大数据挑战 先回答三个问题

当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题: 一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络.互联网和电子商务等领域.另一方面,也许有90%的数据来自开源数据,其余

Hadoop的虚拟化之恋:应对大数据挑战

文章讲的是Hadoop的虚拟化之恋:应对大数据挑战,高速增长的数据量和日益增加的竞争压力,让越来越多的企业开始思考如何挖掘这些数据的价值.传统的BI系统.数据仓库和数据库系统都不能很好地处理这些数据.原因包括: 1.数据量太大,传统数据库不能有效存储并维持可以接受的性能; 2.新产生的数据往往是非结构化的,而传统方式都是为处理结构化数据而设计的; 3.传统数据处理所需的硬件往往相对昂贵,随着数据量增加而继续用传统方式处理的成本让很多企业不能承受.为此,倍受互联网界推崇的Apache Hadoop

应对大数据挑战 企业需共享式服务模型

本文讲的是应对大数据挑战 企业需共享式服务模型,大数据来袭!当企业准备把自己的MapReduce应用从实验环境迁移到生产环境时,共享式服务模型将为这种迁移提供许多重要功能,并加快迁移步伐. 大数据是当今科技行业发展速度最快的领域之一.大数据具有前所未有的大量化.快速化和多样化三大特点,这些是许多新技术背后的驱动力,这些技术可帮助企业处理大数据带来的多种新问题. 在诸多的新兴解决方案中,Hadoop和MapReduce被视为是两种大有希望的方法,可高效管理和分析大数据.但目前针对MapReduce

CIO:物联网的大数据挑战

近日,2012第二届中国计算机技术大会在京召开,会上,IBM中国研究院沈晓卫提出了物联网的大数据挑战. 沈晓卫谈到,IBM认为,物联网不仅仅是传感器,物联网是提供支撑智慧地球的一个基础架构,物联网的存在使这种基于大数据的采集以及分析变成了一种可能,这面临着三项挑战. 1)物联网的边缘计算.大量的数据产生并不是所有的数据都要送到数据中心处理,这样可以减低企业对网络带宽的要求,提供更加实时的反映时间,增加系统的可靠性.如果上端的网络产生故障,我们具有边远计算的能力,底层系统还是可以得到及时的控制和反

解决大数据挑战先回答三个问题

当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题:一.如何利用信息技术等手段处理非结构化和半结构化数据大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络.互联网和电子商务等领域.另一方面,也许有90%的数据来自开源数据,其余的被

想挖大数据价值,你得先“挖人”!

这几天大数据圈的大事件绝对当属第一届中国社群领袖峰会,12月1号在北京的这场峰会吸引了无数知名企业和科技领军人物参与,说星光熠熠也不夸张.围绕大数据和移动互联网有不少会议,但中国社群领袖峰会算是高大上级别的了.大数据正在以超乎想象的速度和力度往各行各业渗透,甚至不少传统行业已经被其颠覆.主动拥抱的就会越发强大,拒绝排斥的可能就要遭到淘汰.有不少行业已经率先尝到了大数据价值的甜头,比如电商行业.互联网金融行业等,美味的东西人人爱吃,前面的人吃的大快朵颐让后来者情何以堪?别忘了还有不少传统行业嗷嗷待

《驾驭大数据》一8.1 哪些人是分析专家

8.1 哪些人是分析专家 驾驭大数据被冠以分析专家头衔的人会有很多不同的称呼.以往最常见的称呼是分析专家.数据挖掘工程师.预测建模工程师以及统计人员.最近,数据科学家这个称呼比较流行,尤其是指那些使用MapReduce工具并分析大数据的人.本书将上述所有人全都认为是分析专家. 事实上,上述分析专家虽然头衔多种多样,但是他们技能的相似程度会大于差异程度.这些分析人员的日常工作都是利用数据解决业务问题.不同类型的分析专家所使用的工具或算法可能会有所不同,但优秀的分析专家会根据需求在不同领域之间自由徜

大数据挑战:企业需要共享式服务模型

大数据正如火如荼,是继云计算之后的又一热词.大数据具有前所未 有的 大量化.快速化和多样化三大特点,这些是许多新技术背后的驱动力,这些技术可帮助企业处理大数据带来的多种新问题. 在诸多的新兴解决方案中,Hadoop和MapReduce被视为是两种大有希望的方法,可高效管理和分析大数据.但目前针对MapReduce应用的运行时引擎还无法提供足够功能来满足企业希望在生产环境中部署MapReduce应用的实际需求. 对企业IT部门来说,先进的运行时引擎应该是这样一种管理工具:它可以在满足高标准服务水平

年服务人次3300万+,网鱼网咖的大数据挑战及架构

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算.机器学习.性能调优等技术实践.此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps:更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data . 对于80年代的人来说,网吧这个词都不陌生.那时候电脑还没有普及,学习需要时,我们去网吧下过资料.模拟过考试: