偏见为什么是数据科学领域的一个大问题

如今,市场对数据科学家的需求是巨大的。但是也有不利之处,因为有偏见的数据,其所面临的风险也是巨大的。数据科学家凯西·奥尼尔为此创建了数据科学家的一个伦理政策。

人们可能不知道,数据科学有一个潜在的黑暗面,这是许多企业所忽视的东西。在当今社会,庞大的数据量对数据科学家造成巨大需求的时候,数据科学家凯西·奥尼尔不久撰写一本著作,名为“数字破坏武器:大数据如何增加不平等和威胁民主”。她担心的是,在急于利用大数据的情况下,可能会因为内置偏差使得结论不准确,并且可能具有相当的破坏性。她与高级技术编辑瓦勒瑞·斯威特一起探讨数据科学领域的偏见,以及为什么企业需要制定数据科学伦理政策。

奥尼尔:人们认为可以解决任何数据问题,对此我感到恼火。我对这些数据持怀疑态度。

斯威特:那么,那些对数据科学领域具有偏见的企业需要害怕什么呢?

凯蒂·奥尼尔:我们有一个信任问题,而如今却没有足够的审查。每个组织都需要数据科学家。但是,我们需要让数据科学家在这些团队中增加更多类型的人,以确保选择是经过深思熟虑的。数据科学家没有接受过道德伦理思考或思考这些问题的培训。社会学家可能会看到非预期的后果,但数据科学家可能会导致愚蠢的事情发生。人们的正义和预警数据是基于吉姆克鲁法律的,如果组织使用这些历史数据来训练当前的模型,他们将是种族主义。假设是,一旦你对数据做了一些事情,它就会自动使得价值和目标消失。社会科学家比数据科学家更为了解其不当之处。

斯威特:如果我们不注意数据科学领域的偏见,有什么风险?

奥尼尔:在这个过程中有一个风险,我们实际上得到的是自动化的偏见。如果团队中没有人提出正确的问题,你可以得到偏向于妇女或颜色或老年人的算法。在不久的将来,建立评估员工的内部算法的企业可能很快将面临歧视性流程的诉讼。这不是痴人说梦。人们需要监控这些事情,并确保做得更好,并确保他们不是歧视性的。

斯威特:这只是一个内部问题吗?

奥尼尔:当涉及到招聘等事情时,这是更明显的,但你可以创建面向客户的算法。如果你的业务与贷款有关,歧视可能就是一个很明显的因素。这都有很多例子。

斯威特:那么,人们如何应对数据科学领域的偏见?

奥尼尔:一些大学开始向数据科学家讲授伦理课程。但在这方面没有很多监管。生物医学实验有很多规则和伦理,研究人员必须征得同意。这种事情不存在于大数据的世界。我们都不断地进行A/B测试,大多数时候是愚蠢的事情,如“这个广告图片是什么颜色的?我们不必同意这些事情。这不是真正的测试,这个事情让人困扰。人们实际上却认为这些算法是完美的。没有理由认为他们工作会犯错。就像一家汽车厂商没有测量结果,没有经过安全测试,就将车辆直接上路行驶一样。因此人们必须测量和验证。”

时间: 2024-09-21 11:23:09

偏见为什么是数据科学领域的一个大问题的相关文章

《数据科学家修炼之道》一2.1 数据科学领域的历史

2.1 数据科学领域的历史 "数据科学"这一术语的流行要早于"大数据"的出现(就像"数据"一词要早于"计算机(computer)"400年出现).1962年,当John W. Tukey[1]写了<数据分析的未来>(The Future of Data Analysis)[2],他预见了数据分析的新方法的崛起相比于方法论来说更像是一门科学.1974年,Peter Naur在瑞典和美国出版了<计算机方法的简明调

2017年安全数据科学领域的4个趋势

安全数据科学正在蓬勃发展,有报告显示安全分析市场将在2023年达到八十亿美元的价值, 26%的增长率.这要感谢不屈不挠的网络攻击.如果你想要在2017年走在不断涌现的安全威胁的前面,那么投资在正确的领域是很重要的.在2016年3月,我写了一篇<2016年需要注意的4个趋势>.而2017年的文章由我与来自Netflix的Cody Rioux合作,带来他的平台化视角.我们的目标是帮助你为2017年的每一个季度形成一个计划(例如,4个季度有4个趋势).对于每一个趋势,我们都提供了一个短小精悍的理论基

图解数据科学领域的职位划分以及职责技能

随着数据科学领域的招聘信息越来越多,范围也越来越广.Datacamp根据最新的数据科学相关招聘信息,全面的了解各个行业之间数据科学领域每个职位角色之间的差异,以及所赋予的工作职责. 最主要分为以下几个职位:数据科学家.数据分析师.数据架构师.数据工程师.统计学家.数据库管理员.业务数据分析师.数据产品经理.下面通过信息图区分每个职位的角色介绍.必备语言技能. 1. 数据科学家  角色/任务 清洗,管理和组织(大)数据 必备语言 R,SAS,Python,Matlab,SQL,HivePig,Sp

跻身数据科学领域的五条职业规划道路

预备阅读 在我们继续深入之前,读一读这些文章.我是说真的,读,这些,文章. 解析数据科学谜题 (http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html) 再析数据科学谜题 (http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html) 解析数据科学和大数据 (http://www.kdnuggets.com/2016/11/big-data-

2016美国大选预测失败意味着什么?14位专家帮你分析数据科学的未来

雷锋网按:2016年眼看就要结束,外媒KDnuggets近期就机器学习.人工智能.大数据.数据科学和预测分析等领域在2016年取得的主要发展,以及2017年可能发生的变化趋势,询问了业内诸多的专家学者,组成了一个系列文章.昨天,雷锋网(公众号:雷锋网)编译了其中关于大数据的文章:<大数据领域在2016年都有哪些成果及趋势?听听8位专家怎么说>,今天带来关于数据科学和预测分析的部分. 本文中一共采访了14位数据科学和预测分析领域的专家.除了表示大数据和预测分析技术将在2017年度得到更大的发展之

10个2017的预测:数据科学、机器学习和物联网

近日, Vincent Granville在Data Science Central上撰文对2017的数据科学.机器学习和物联网进行了预测. 以下为译文 又到了分享对2017年的预言的时候了,这里抛砖引玉,也希望各位发表自己的观点. 1. 数据科学和机器学习将变得更为主流,特别在以下领域:能源业.金融业(银行.保险).农业(精耕).运输业.城市规划.医疗保健(定制治疗),甚至是政府方面. 2. 某些数据科学的门外汉想要创建合法的,有关如何分析数据.算法怎样运转的体系,并打算强制公开算法的秘诀.我

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

今年,Kaggle有史以来第一次对人工智能领域进行了深度调查,旨在全面了解数据科学和机器学习的概况.本次调查收到了 16000 多份答卷,庞大的调查数据为我们提供了有关从业者.业界最新动态以及如何进入该行业的数据支撑.以下报告包括本次调查的几个主要结果,其中包括: 尽管Python很可能是机器学习最常用的编程语言,但统计学家使用最多的是 R 语言. 数据科学家的平均年龄在 30 岁左右,但是这个数字在不同的国家有所不同.例如,印度受访者的平均年龄要比澳大利亚的小 9 岁. 被调查者教育程度最多是

第二热门语言:从入门到精通,Python数据科学简洁教程

Python是一门通用的编程语言,在过去十年中被数据科学领域广泛使用.事实上,Python在数据科学领域是仅次于R的第二热门的编程语言. 本篇文章的主要目的在于向大家展示使用Python学习数据科学有多么的容易.你可能以为自己要先成为一名高级Python程序员,然后才能进行通常与数据科学相关的复杂任务,然而事实并非如此.Python附带了很多有用的工具库,它们可以在后台为你提供强大的支持.你甚至不需要知道程序在运行什么,你不必关心这些.唯一你真正需要知道的是,你需要执行一些特定的任务,而Pyth

了解人工智能之分类和预测 - 数据科学中的预测,分类和回归分析

在上一篇中,我概括地解释了一些主要的人工智能概念,包括机器学习,神经网络和深度学习.也概述了当前人工智能背后的基本原理,提及了从大量样本中学习的机器学习系统,解释了深度学习系统能够更丰富地展现这些样例.那接下来我们就来说说利用这些人工智能系统我们今天可以做些什么,有哪些用途,以及现在的研究领域与方向. 总的来说,我们可以从两个方面来利用当前的人工智能系统: 完成更出色的数据科学工作 我们长期以来使用传统统计方法或软件工程来处理下面这些数据科学领域的工作.但是在有了机器学习系统以后,我们可以做得更