人工智能中 5 个让人意想不到的误差来源

译者 | 开源中国 Ley, snake_007, 西直门交警, xubing0x00, 无若

我们倾向于认为机器是没有血肉,没有个人思想,但能提供精准计算的东西,尤其是智能机器。我们相信自驾汽车没有私心,在判断司机和路人生命孰重孰轻时不会有偏袒。

我们相信智能评估系统在进行评估时,会抛开所以主观因素,做出客观的判断,如收入和 FICO 值。我们也相信学习系统会基于事实给出客观结论,因为驱动它们工作的是无偏差算法。

有些人认为,不包含人类情感的机器存在 bug:它们应该有人类一样的思维模式。而另一些人认为:机器就是机器,不应带有人类的主观思想。还有一种折中的观点认为,它们可以有主观的思想,但应做出客观的判断。

而现实情况是,很少有智能系统可以做到毫无误差,而且误差的来源有很多途径,如,训练系统的数据导致的误差,交互误差,突发情况引起的误差,相似性误差和目标冲突导致的误差等。

这些误差通常难以被人察觉,但在我们构建和部署智能系统,需要对它们有一定的认识,这样才可以在设计时有意识的避免可能引起的问题。

数据驱动偏差

对于任何学习系统,输入的数据决定了输出。这并不是一个新的观点,但当看到系统被数以百万的示例数据驱动时,我们往往会忘了这个观点。人们往往会想:海量的数据可以将人类造成的误差碾压成渣渣。但是如果训练集本身就有偏斜的话,结果也可想而知。

最近,这种偏差已经在深度学习的图像识别系统中初露端倪。尼康的“亚洲面孔困惑”和惠普的肤色问题似乎都是偏斜示例集的产物。虽然两者都是无意识产生并且都是可修复的,但这也表明了:如果我们不注意数据源偏差的问题的话,这种问题就会出现。

除了面部识别领域,更有其他对现实世界造成影响的情况。机器学习系统会用于建立一些用于预测被假释人员的再犯罪概率,犯罪模式,或者预测潜力雇员的规则集。

这样在这些领域会有潜在的负面的影响。当我们用有偏差的数据源训练系统时,如果数据源是和谐的但系统的决策算法有偏斜,也会使偏差延续下去。

交互引入的误差

在某些系统通过大量的全集例子来学习的同时,另外一些系统通过交互来学习。因此,由于交互中的用户本身带有偏见或者局限性,机器学习就可能在此基础上产生误差/偏见。

这种误差的一个非常典型的例子就是微软的 Tay。Tay 是一个 Twitter 的聊天机器人,被设计为通过和用户交互来学习。然而 Tay 受到某一社区影响,会产生种族歧视和女性歧视的言论。

事实上,这个用户社区不断地向 Tay 发出带有侵犯性的言论,从而使得 Tay 的系统以这些言论为材料做出回复。

Tay 仅仅存在了 24 个小时就因上述情况被微软关闭了。虽然 Tay 发出的种族歧视言论只被限制在 Twitter 范围内,但它指示了世界的真实现实。当我们构建通过和人类伙伴交互而做决定并且学习的智能系统时,同样糟糕的训练问题也会出现在更多的情况之下。

考虑到我们对于机器做决定的不信任,试想如果我们给智能系统配备一个长期指导导师会发生什么?从 Tay 的事件中,我们知道了这些系统会从它们周围的环境和人那里学习到“偏见”,不管好坏,都反映出了训练它们的人类的观点.

新生成的误差

有时,系统为个性化而做的决策将会导致误差“泡沫”的产生。我们可以从 Facebook 当前的状态中看到这种误差。在最顶层,Facebook 用户可以看到他们朋友的博文,并和他们共享信息。

不幸的是,任何分析输入数据流并提供其他内容的算法将会给用户提供已经看到过的内容。这一效果在用户打开、喜欢和分享内容的情况下进一步被放大。结果导致信息流更加倾向于用户已有的兴趣集。

虽然这么做体现了个性化,也能让人放心,但不是我们认为的新闻的样子。信息泡沫是“确定性误差”的算法版本。用户无需再过滤那些与自己信仰相冲突的信息,因为系统已经自动将其过滤。

这些信息误差在新闻界造成的影响给人带来许多困扰。但在企业中,我们把社交媒体的模型用于支持决策制定,支持产生信息泡沫的系统更能影响我们的认知。知识份子仅从与他观点相似的人那里得到信息,将无法看到对立的观点,会忽略和否认其他的观点,导致体现问题不全面。

相似性偏差

有时偏差仅仅是系统在完成设计初衷的产物。比如,Google News,设计初衷是通过使用相关故事集匹配用户查询来提供故事。这明显是它设计的目的,而且它完成的非常好。当然,返回的结果是一些相互直接有关联的相似故事集合。也就是说,它们定义了与 Facebook 个性化类似的信息泡沫。

这种模式突出显示了新闻的作用及其传播的问题——最明显的是信息的平衡方法。“编辑控制”的缺失影响范围巨大。虽然相似性是信息世界里一个强大的衡量标准,但它不是唯一的。

不同的观点为决策提供了有力的支持。如果信息系统仅依靠“类似于”查询或现有文档提供查询结果,就容易产生“信息泡沫”。

相似性偏差更倾向于被接收,而对立、反向和冲突的概念提倡的是创造与革新,这种概念在企业中尤为重要。

冲突的目标偏差

有时系统设计是有非常具体的商业目的的,而真实的偏差完全是在意料之外。

比如,一个旨在为潜在候选人提供职位描述的系统。当用户点击职位描述时,系统就会生成薪资。所以自然地,算法的目标是提供获得最高点击数的职位描述。

事实证明,人们倾向于点击那些能满足自我期望的职位,通过简单地介绍,可以加强人们对这一职位的刻板印象 [注:刻板印象主要是指人们对某个事物或物体形成的一种概括固定的看法,并把这种观看法推而广之,认为这个事物或者整体都具有该特征,而忽视个体差异。]。

举例来说,女性倾向点击的工作标签是“护理”,而不是“医疗技术人员”。这并不是因为“护理”工作比较好,而是因为刻板印象,使得这一工作与她们的决定匹配起来。

刻板印象在行为上的影响体现在:一个人刻板印象(例如:性别,人种,族群)与工作选择相关联。因此,大多数网站基于点击行为的学习组件都会利用刻板印象带来的影响。

机器误差由人工导致

理想状态下,智能系统及其算法是客观的。但这些系统是由人工建立的,所以我们的误差会导致机器的误差。 通过对误差本身及问题的根源进行了解,有利于我们避免误差的产生。

我们没法创建完全没有误差的工具,但我们能尽量缩小误差的范围。

本文作者:佚名

来源:51CTO

时间: 2024-12-05 00:15:31

人工智能中 5 个让人意想不到的误差来源的相关文章

Nuance报告:医护人员如何从人工智能中受益

语音和语言处理解决方案公司Nuance Communications公司今天宣布了一项新的产品研究成果,显示了医疗保健专业人员可以从人工智能中受益良多. 作为关于该公司使用人工智能演讲的一部分,该公司在Healthcare Information and Management Systems Society 2017会议期间公布了该研究.根据报告显示,临床医生可以节省高达45%的文档时间,而且使用了人工智能支持的产品可以提高高达36%的质量指标. Nuance公司生产Dragon Medical

用java实现人工智能中的A*算法求8数码问题

算法|问题 //8数码类class Eight{ int e[][] = {{2,8,3},{1,6,4},{7,0,5}}; //默认的起始状态 int faX ,faY; //保存父状态中0的位置 int f; //估价函数值 Eight former ; public Eight(){ faX = -1; faY=-1; f=-1; former = null; } public Eight(Eight other){ for(int i = 0; i<3; i++) for(int j=

布局-纯HTML中如何实现多人登陆和个人信息展示,同时把这些人关联起来

问题描述 纯HTML中如何实现多人登陆和个人信息展示,同时把这些人关联起来 纯HTML中如何实现多人登陆和个人信息展示,同时把这些人关联起来.表格布局如何只显示自己要的tr并且不留位和改变格式,实现登陆,个人信息和关联人信息的展示 解决方案 先请你们公司的美工画出设计图,交互师设计好交互UI,然后再来考虑如何实现. 解决方案二: 纯html可以使用ajax动态发送信息进行验证和获取动态页返回的验证信息. 参考:http://www.w3school.com.cn/ajax/http://www.

ios-从NSArray中查询生日相同人的名字

问题描述 从NSArray中查询生日相同人的名字 有一个数组,其中名字和生日是关键字. 我想查询同样生日的名字. for (NSDictionary *contactDict in contactList) { NSString *birthdayStr = [contactDict objectForKey:BIRTHDAY_KEY]; } 应该怎么获取呢?

Instagram创始人凯文-希斯特罗姆或许是整个科技界中最幸运的人

摘要: Instagram创始人凯文-希斯特罗姆(Kevin Systrom)或许是整个科技界中最幸运的人.在此,我们并不是说他工作不够努力,只是觉得他在3年前创立的照片分享应用Instagram的发展过程实在是过于 Instagram创始人凯文-希斯特罗姆(Kevin Systrom)或许是整个科技界中最幸运的人.在此,我们并不是说他工作不够努力,只是觉得他在3年前创立的照片分享应用Instagram的发展过程实在是过于顺利. 在<观察家报>(Observer)位于伦敦的办公室中,这名出生于

智能手机用户中,52%的人更青睐于指纹识别而不是密码

年关渐渐临近,爱立信消费者研究室也发布热门消费趋势,对新的一年进行预测.许多有趣的功能正成为趋势.比如智能手机用户中,52%的人更青睐于指纹识别而不是密码,48%的人对"人眼识别屏幕开锁"表示感兴趣.身体成为密码.还有有趣的诸如人体的自我量化.40%的智能手机用户希望手机能够记录全部的身体活动,56%的人愿意使用手环来监测自身血压和脉搏.爱立信消费者研究室致力于研究人们对于ICT产品及服务所采取的价值主张.行为趋向和用途.研究室每年在全球范围内调查超过10万人,其受访者来自40多个国家

C++程序设计实践学材系列(6)——1.1.2 程序中可以加上给人看的注释

回到系列文章的目录--[系列文章目录] 回到本章目录--[第1章目录] 1.1.2 程序中可以加上给人看的注释 现在我们要提的第一个问题:这个程序中写出来的那么多文字,究竟是什么意思?回答了这个问题,目的在于写出自己的程序. 我们将给出另一个版本的输出"hello world"的C++程序. 例1.2 为输出"hello world"的C++程序加上注释 #include <iostream> //包含头文件iostream using namespac

乔布斯经典语录:不想成坟墓中最有钱的人

导语:美国科技博客网站BusinessInsider今日撰文指出,苹果联合创始人.前CEO史蒂夫·乔布斯(Steve Jobs)周三离世令人扼腕叹息,在乔布斯领导下,苹果成为全球市值最高的科技公司,同时还给电脑.音乐和手机等行业带来彻底变革.乔布斯有许多经典名言值得后人铭记,以下即是乔布斯的经典语录: 1.谈计算机 "计算机要对这些简单的指令进行处理--'调用个数值,把它跟现有的数值相加,并将结果写在这儿,看一看是不是比另外一个数值大'--但要以某种速度执行这些任务,比如每秒100万次.当计算机

Silverlight中生动的火柴人动画

Silverlight中生动的火柴人动画 nikola开发了一款可以浏览bvh动画(3DMAX中的一种动画脚本格式,可以快速方便的帮助制作人物动作的动画)Silverlight 应用. 你可以直接看到真实的火柴人3D动画,程序内部内置了两个动画脚本,你也可以在这里http://sites.google.com/a/cgspeed.com/cgspeed/motion-capture/3dsmax-friendly-release-of-cmu-motion-database下载更多的动画脚本动态