大数据应用的“傲慢与偏见”

美国有一个著名的数学博客叫MATHBABE.ORG(数学宝贝),其博主是数学达人CATHY ONEIL(凯茜·奥尼尔),她是心怀理想的人,办博客的目的就是想回答好一个问题:“一个学术界以外的数学家怎样能使世界更美好?”2016年9月,奥尼尔在Crown出版社出版了新著Weapons of Math Destruction:How Big Data Increases Inequality and Threatens Democracy(《数学杀伤武器:大数据如何加剧了不平等和威胁着民主制》)。Weapons of Math Destruction是大规模杀伤武器的意思,她把该词组中的Mass改为发音很接近的Math ,就成为“数学杀伤武器”的意思了,这是很巧妙的文字游戏。

她于1999年在哈佛大学获得数学博士学位,后来在麻省理工学院和巴纳德学院从事过计算代数几何的研究,在金融界工作过四年,包括在D.E. Shaw对冲基金当了两年的定量分析师,发表过不少论著,如2013年发表的著作Doing Data Science: Straight Talk from the Frontline(《做数据科学:来自第一线的平实谈话》),还有同一年发表的电子书On Being a Data Skeptic(《论如何做一名数据怀疑论者》)。在金融界工作几年后,她对于对冲基金模型彻底失望了,对于大数据分析的不当应用十分反感,还积极投身于“占领华尔街”运动。

可以说,美国人生活在算法时代。人们能上哪个学校、能否获得购车贷款、健康保险的缴费标准是多少等各种决策,越来越多地由数学模型决定,而不是由人决定。从道理上说,这应该导致更公平的结果,因为一切都按规则来处理,似乎就消除了偏见。遗憾的是,奥尼尔在书中指出,数学模型带来的是更多的不公平。现在使用的很多数学模型是不透明的,未受到规制的,明明有错却容不得质疑的。

她在新书中描述了广泛应用的一些数学模型是如何惩罚穷人、犒赏富人的,因为这些模型就是基于“成见、误解与偏见”的。她将最具伤害性的这类模型称为“数学杀伤武器”,社会弱势群体在求学、求职、借款、遭遇牢狱之灾的时候,都会收到这种武器的可怕伤害。例如,一些雇主利用信用评分来评价潜在的雇佣对象,认为若是其信用评分不高,今后的工作表现也好不到哪儿去。其实,二者之间并不存在这样的稳定联系。又如,以盈利为目标的大学会利用信用评分数据来发现那些易于被俘获的群体,引诱他们入学,最终往往使他们债台高筑。再如,一些汽车保险公司在审查申请入险者资料的时候,不是看他们的驾驶记录,而是看他们的消费模式。有的年轻人由于住在穷人区,就申请不到贷款,从而上不起大学——某算法主要根据申请人家庭住址的邮政编码,就作出了“贷款给他们有较大风险”的判断。还有,一些所谓的犯罪预测软件的实际效果,是引导警员们去贫困街区关注一些轻微滋事案件。她说,当片警动不动就把少数族裔的穷孩子当街拦住,推推搡搡,再警告一番,大数据的害处就明显不过了。与此同时,这些数学模型总是将社会中的富足阶层置于各种营销筒仓内,使他们的生活“更智能化,更便捷”。她令人信服地论证说,我们必须更负责任地应用数学模型,美国联邦政府必须对大数据应用加以规制。

当然,她写作此书的目的并非反对大数据应用,而是呼唤人们头脑清醒,在利用大数据“兴利”的同时一定要注意“除弊”。该书获得很好的反响,出版不过一个月有余,已经获得“2016年国家图书奖(非虚构作品类)”的提名。

本文作者:hang

来源:51CTO

时间: 2024-10-11 02:16:46

大数据应用的“傲慢与偏见”的相关文章

大数据“偏见”会让我们变蠢吗

数字从来不会自己说话.数据必须经过分析才能产生意义.数据必须要清理.加权.整理. 很多时候,大数据被输入到算法中,产生可指导行动的测量数据.个性化给人们带来的最大担忧是,它让用户撤回到舒服的飞地,其结果是用户的视野变窄,偏见增强. 测量中的偏见 所有的媒介测量都具有偏见.这并不是说,它们为了达到某个不道德的目的而故意歪曲--虽然也存在这个可能.意思是说,它们永远无法提供一个完全客观的现实图像.在收集和整理数据的过程中,偏见是固有的.能被观测到的东西是无限的.记录这些东西的方法各不相同.而且,正如

大数据能消除在招聘和相关商业行为中的偏见吗?

在招聘和相关日常商业行为中,企业正更多地转向大数据.这已经引发了关于偏见是否会被根除的讨论.大数据真的能消除偏见?有些人说是的,因为算法从本质上讲是数学性的.客观的,不是主观的.另一些人说数据和算法和创建它们的人一样有偏见. 为了更好地评价这个说法,要考虑用来评判人们的大数据类型.一种是FICO(FICO是一家美国上市公司,它提供分析软件和分析服务,包括信用评级,旨在帮助金融服务公司做出复杂.大批量的决定.)信用评级.基本类型的信息,如支付记录.负债.信用类型.新增信贷和信用记录被考虑在内.这是

大数据的局限性:算法不能完全代替人的判断

数学模型 如果你已经听过这个笑话,尽管打断我:有三位统计学家去猎兔.他们发现了一只兔子.第一位统计学家率先开枪,离兔子的头差了一英尺.第二位统计学家开枪射击,离兔子的尾巴差了一英尺.第三位统计学家大喊道:"我们逮住它了!" 就算你并不觉得这个笑话有多么好笑,但你却很可能跟类似于它所描述的猎兔者的管理人员一起工作过.他们的数学水平或许无可挑剔,但可悲的是,他们在真实世界的成果毫无价值.谎言,该死的谎言.各大组织到底必须掌握什么东西,才能提高其数量分析专家产生真实价值(而不是统计幻象)的几

国际思想周报|特朗普的流氓美国,大数据时代如何拆穿胡扯

近日,美国总统特朗普宣布退出<巴黎气候协定>,在国内外引起广泛不满.诺贝尔经济学奖获得者.哥伦比亚大学教授约瑟夫·斯蒂格利茨(Joseph E. Stiglitz)在Project Syndicate以"特朗普的流氓美国(Trump s Rogue America)"为题撰文,对特朗普的这一举动进行了猛烈抨击. 斯蒂格利茨.斯蒂格利茨称,特朗普此举是在二战后艰难建立的世界经济体系中投掷了一枚手榴弹,而这一试图破坏建立在规则之上的全球治理体系的举动只是这位美国总统攻击当今基本

开发者不开发WP应用?微软亲身体会“傲慢与偏见”

谈到 Windows Phone,许多人脑海中都会莫名其妙地飘过一个词:人权.人权,在大多数人的印象中,并不是一件很好的事情,因为当这个词出现的时候就意味着已经有很多人看到了不如意的地方.而人们谈到 Windows Phone 在脑海中蹦出的"人权"说的却是:"Windows Phone 应用程序短缺,与其他智能手机操作系统相比应用程序落后一个或者几个版本号,别人有的,WP 用户没有." 本文不会讨论 Windows Phone 这个生态系统的质量如何,只讨论开发者

苏秋萍:不能滥用大数据 要退到原点回顾初衷

华语广告大师苏秋萍 和讯银行消息 4月2日,由中国金融认证中心主办的"2014中国电子银行宣传年启动仪式暨第二届金融品牌峰会"在北京举行.会议主题为"大数据时代的金融品牌营销".和讯网对本次峰会进行全程图文报道.华语广告大师苏秋萍在峰会上表示,现在是一个大数据的时代,我们被逼跟着数据在走,我们在继续往前走的时候,要倒退到原点回顾一下你当初为什么要做这件事情,这是世界各地尤其是国内比较欠缺的东西. 苏秋萍提到,要回头看一下,我们在起步点上到底输在哪里.他说,"

怎样才算大数据(之三)

天下武功,唯快不破.这句话滥觞于<拳经>,经过雷军等人的演绎,几乎成了互联网时代商业致胜的不二法则.那么,大数据的快又从何说起呢? 话说道哥(Doug Laney)当年创立三V经,背景是电子商务:Velocity衡量的是用户"交互点"(Point-of-Interaction),如网站响应速度.订单完成速度.产品和服务的交付速度等.假设交互点是一个黑盒子,一边吸入数据,经过黑盒子处理后,在另一边流出价值,那Velocity指的是吸入.处理和产生价值的快速度.随后"

二战大数据故事:数学家物理学家概率论击败德国潜艇

第二次世界大战期间也有大数据?Michael Moritz在其LinkedIn上发表了一篇有关数据挖掘在二战里运用的文章,带我们领略了没有MapReduce的情况下,数学家和物理学家使用大数据克敌制胜的故事. 以下为译文: 拉科尼亚号商船的幸存者,1942年9月12日沉没于大西洋战役 在加州山景城与Google.http://www.aliyun.com/zixun/aggregation/5558.html">Intuit.LinkedIn总部只有很短骑行距离的地方,我忽然产生了一个很奇

大数据热的冷思考:无法取代传统的新闻传播科研方法

古希腊哲学家毕达哥拉斯曾经提出"数是万物的本源"的思想,认为世界万物归根结底都是由某种数量关系决定的.在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件.2012年,技术词汇"大数据"进入人们的视野,不同于传统意义上"数据=数字"的是,在互联网.物联网高速发展的今天,网购经历.视频节目.微信语音都是数据.大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣