序
马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。
我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。
计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。
在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。
新闻记者和政策制定者正渐渐意识到一个问题,某些最有前途、最强大的计算工具存在巨大的缺陷。随着预测分析进入越来越多的领域——推送广告;开拓新市场;作出重要决定,比如让谁得到贷款,让谁得到新工作,甚至是把谁送进监狱和暗杀谁这样的伦理道德决定——某些特定群体遭受歧视和偏见的迹象日益增多。
本文着重探讨分析中这种普遍趋势的技术和社会层面。我研究了分析在执行过程中为什么难以做到公平公正,以及这说明分析处于怎样的社会背景。关于这个话题,美国计算机协会(ACM)举办的一场研讨会和我围绕这场研讨会所做的研究为我提供了一些有用见解。
分析无处不在
预测分析似乎证实了马克·安德森(Marc Andreessen)的一句名言:“软件正在吞噬整个世界。”各行各业发现,分析对保持竞争力至关重要。政府则发现,分析对履行政府义务至关重要。这些压力推高了数据科学家(数据科学不只是统计学,但拥有深厚的统计学背景是必要条件)的薪水,并且使得市场调研公司Gartner作出了数据科学家将大量短缺的预测。
分析(更准确地说是模拟)甚至在近期热门电影《萨利机长》(Sully)中扮演了重要角色,但基本上是反派。该片说明了人类社会日益依赖算法的一个最令人不安的方面:身居高位、权力巨大的政策制定者有时会让算法替他们作出判断,而他们根本不明白算法的运行机制和可能造成的后果。在《萨利机长》中,调查员把一条事关重大的错误信息输入系统,还用不切实际的假设情境来训练系统。当这些计算的受害者对模拟背后的假设情境提出质疑时,调查员自鸣得意地说:“我们运行了20次模拟!”他们没有意识到,这20次模拟都是建立在同样的错误假设之上,将会得出同样的错误结论。当受害者要求查看详细的输入数据时,他们打官腔拒绝了这一要求。虽然《萨利机长》可能精心安排了事件背后的一些事实,但对于分析在现代生活中的使用,该片为我们提供了很多经验教训。
需要指出的是,分析可以帮助作出正确决策。在我参加ACM的那场研讨会期间,我的信用卡提供商进行的分析发现,有人窃取了我的信用卡信息,试图盗用我的卡。他们的专家分析系统立刻冻结了这张卡,没有造成金钱损失。虽然在旅行途中发现我的卡被冻结,给我带来了不便,但我还是感激那些保护了我和银行的分析工具。
使用分析的大多数公司希望通过减少主观性来减少偏见。偏见一直都存在,不需要计算机。越来越多的研究表明,工作面试无法有效地判定谁能做好这份工作,原因主要在于我们面对面评估应聘者时作出的仓促决定,这很容易受到内隐偏见的影响。对大脑运作的研究显示,白人和亚洲人在潜意识里对黑人抱有根深蒂固的不信任感,这使得改善警察执法实践的努力面临着更大的困难(举个例子)。偏见很早就开始影响人们的生活。黑人学生和白人学生在学校里做出同样的违规行为,黑人学生更容易受到处罚。我们从小就受到由来已久的偏见影响。
不幸的是,预测分析常常重现社会的偏见,因为它们的创造者是带有偏见的人,或者因为它们使用带有偏见的历史数据进行训练。
一个广为人知、无可争辩的例子来自于拉坦娅·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隐私研究员,她最为人所知的,是证明了公共记录可以被用来揭露美国马萨诸塞州州长威廉·维尔德(William Weld)的医疗信息。这促使健康隐私法律作出了重大修改。她在2013年进行的研究显示,在谷歌(Google)上搜索美国黑人的常用名,往往会出现给出此人逮捕记录的广告。搜索白人的常用名,则往往不会出现这样的广告。但是人事经理、房东等人在搜索潜在候选人时,如果出现这样的广告,会很容易被吓阻,尤其是当一群求职者中只有黑人应聘者的名字导致这种广告出现的时候。
很多政策行动组织都签署了一份《大数据时代民权原则》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但没有说具体如何做到这一点。在美国,恐怕会很难让政策制定者关注到这个问题,因为新上台的当权者们自己就公开宣扬偏见和歧视,但有道德心的程序员及其雇主将会继续寻找解决办法。
让我们看看这对弄清分析中的偏见意味着什么。
成为有辨别力的思考者
我记得一位小学老师对她的学生们说,她希望我们成为“有辨别力的思考者”。区别对待有时是好事。如果某人曾经借钱挥霍,购买自己买不起的昂贵物品,那么不给他贷款对银行和公众都有好处。问题是我们用什么标准来加以区别。
ACM研讨会的与会者们对道德标准进行了一番讨论。分析专业人士是否应该建立某种具体的道德标准来控制分析的使用?或者,专家是否应该以公开透明为目标,让公众了解决策的制定过程,而不建立具体的道德标准?
我认为,最好的做法是坚持被广泛接受的社会标准。例如,在上世纪60年代,美国以宪法第一修正案为依据,禁止民族、种族和宗教歧视。后来,性别和残疾被加入保护行列,然后是性取向(在22个州的管辖范围内),近期则是性别认同(也就是跨性别者和非二元性别者)。1948年的联合国《世界人权宣言》在第二条中呼吁人人平等,“不分种族、肤色、性别、语言、宗教、政治或其他见解、国籍或社会出身、财产、出生或其他身份等任何区别。并且不得因一人所属之国家或领土的政治、法律管辖或者国际地位之不同而有所区别,无论该领土是独立领土、托管领土、非自治领土或者处于其他任何主权受限制的情况之下”。这里的“其他身份”表述模糊,但其余部分相当明确具体。
简而言之,就是由参与公共讨论的政治实体和政策制定者来决定什么可以区别对待,什么不可以。在某些情况下,计算机算法可能会使用种族和性别这样的标准来作出雇佣等决定,哪怕使用这些标准并不合法。
计算领域的一条重要戒律,就是计算机不能改变人类责任。如果人类做某件事情是不合法或不道德的,那么人类创造的计算机程序做这件事情也是不合法或不道德的。但太多的人把计算机程序作为挡箭牌。“我们是在使用计算机分析程序,所以没有关系”,这就是数字版的“我只是按命令行事”。
1976年出版的一本经典论著《计算机能力与人类理性:从判断到计算》(Computer Power and Human Reason: From Judgment To Calculation)也传达了同样的讯息。该书作者约瑟夫·魏泽鲍姆(Joseph Weizenbaum)提出了一条关于人工智能的重要原则。他说,问题不在于计算机能不能够作出事关人类重要活动的决定,而在于它们应不应该作出这样的决定。
因此,我认为,很多法律和政策声明已经明确了我们应该警惕偏见的领域。本文将会逐渐说明,这些政策考量会推动技术方面的决定。
数据科学家凯茜·奥尼尔(Cathy O'Neil)在深受好评的《数学杀伤性武器》(Weapons of Math Destruction)一书中,提出了几个令人信服的观点,包括:
- 由于企业是从他人那里购买数据或分析的,数据的收集和处理常常是以层级为单位发生的。算法最初的不透明性会随着层级的累加而增大,每个层级引入的错误因素也是如此。
- 将我们与趋势进行比较的算法,最终会用他人的行为来评判我们,而不是用我们自己的行为来评判我们。我们可能会因为和我们拥有相同购买或信用记录的其他人曾经开车不小心,而不是因为我们自己曾经开车不小心,而在购买汽车保险时被收取更高的费用。这就是偏见的本质:假定一个人将像同类的其他人那样行事。
- 一旦某人被划入表现糟糕者的行列,被认为是不可靠的员工、潜在的罪犯或者信用不好的人,那么算法就会进行区别对待,使他失去机会,越来越把他推向贫穷和缺乏机会的境地。
奥尼尔的弥补方案不只是检测偏见,还包括通过一个广泛的社会项目来评估社会的目标,把对抗经济压力的公平性考虑在内,利用算法帮助弱势者,而不是惩罚他们。
透明性的阴暗面
透明性可以说是我们这个时代的战斗口号:让所有人看到你的决策过程!全球已有70个国家加入了开放政府伙伴关系联盟(Open Government Partnership),承诺让公民参与财政预算和法律法规的制定。其中的大多数国家一如往常,继续面对着战争、腐败和其他问题。
但先不要对透明性过于悲观。从很多方面来说,透明性正在提升,这得益于更高的教育水平和新的传播媒体。开源运动大大加强了程序的透明性。开源软件或其他措施能否使预测分析更加公平呢?
利用分析对人进行分类的企业担心,被分析的对象如果了解输入数据的标准,就可以把分析系统玩弄于股掌之上。很多标准涉及到难以改变的重要生活特征,比如收入。但也有很多标准似乎只是更重要特征的简单代表,这就有可能让精明的分析对象弄虚作假。
在以色列电视喜剧《阿拉伯劳工》(Arab Labor)里,阿拉伯人主角沮丧地发现,他经常在检查站被拦下。他问一位以色列朋友,如何避免这种情况。朋友建议他买一辆特定牌子和型号的汽车。阿拉伯人照做了。神奇的是,他开始顺利通过检查站,再也没有受到骚扰。面对预测分析,会有很多人寻找那辆能够让自己度过困境的“好车”。
因此,那些密切关注分析使用状况的人承认,透明性并不总是好事。一些专家反对在分析中使用简单的二元标准,说这种标准过于粗糙,无助于作出正确决定。我认为,无数家机构的经历已经证明,这样的粗糙标准很容易被看穿。分析对象的状况在不断变化,所以标准必须与时俱进。
对于加强透明性的努力来说,还有另一个障碍需要克服:一些公司的分析会变来变去,谷歌的排名算法就是如此。外人不可能透彻了解每一项变动。另外,机器学习技术往往会生成令人费解的决策树,就连编写这些程序的人自己都搞不明白。
另一方面,固定不变的算法可能会逐渐偏离正确的预测,因为作为输入数据一部分的生活状况在不断变化。这解释了道琼斯工业平均指数(DJIA)为什么时不时地改变包含的成分股公司:在19世纪80年代构成美国经济主要部分的那些公司要么已经消亡,要么变得无足轻重,而现代经济的主要构成部分在那时甚至根本无从想象(最初的12间DJIA成分股公司,现在只剩下了通用电气这一间)。出于类似的原因,分析必须时常用新的、准确的输入数据进行重新计算。当分析产品被出售时,我们又会遇到另一种风险:它们可能会逐渐偏离现实,沉沦于过去,从而对依靠它们的公司和被它们错误分类的人造成负面影响。
力量的不平衡也扮演了非常重要的角色。本文稍后会以一篇论述刑事量刑的著名文章为背景,向大家说明,从外部对算法发起挑战是极为困难的,因为部署算法的机构比作为分析对象的个人要远为强大得多。亚历克斯·罗森布拉特(Alex Rosenblat)、塔玛拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰写的一篇文章指出,要赢得歧视诉讼是很难的。也许,实现公平公正的最有效方法是让企业把他们的分析交给某个评审委员会审查,类似于评审学术研究的机构审查委员会(IRB),由很多利益相关者组成,包括可能受到分析不利影响的人。这样的委员会是否有能力评估深奥的算法还是个未知数,但至少他们能告诉程序员,某些输入数据是否存在固有偏见。
弥补措施
在学术界以外,批评预测分析存在偏见的人一直致力于揭露那些偏见(请注意,他们也在使用同样的机器学习工具!)。他们常常暗示,应该停止使用分析工具来作出对人类产生深远影响的决定。分析的预期影响是一个标准,企业可以据此判断是否信赖分析。企业利用A/B测试来确定网站访客点击绿色图标的次数是否超过蓝色图标,看上去没有什么不好。另一方面,Facebook通过信息推送来影响用户情绪的做法被广泛视作为不道德行为。
所以说,社会尚未弄清楚分析的适当角色,或者在分辨不良后果方面还不够熟练——技术专家Meng Weng Wong称此为“误算法”(malgorithm)。而分析实在太过强大,太有用处,我们也不能乐于拒绝。
一种弥补方案是让用户有机会挑战分析结果,就像几十年前美国联邦贸易委员会(Federal Trade commission)颁布的、被很多公司以各种形式采纳的“公平信息实践原则”(FIPPS)那样。企业可以通过任何方式作出决定,但过程必须透明,并赋予个人挑战该决定的权利。欧盟已经将这一原则写入了2016年4月的《数据保护指令》,该指令对上世纪80年代的隐私法规进行了补充更新。此外,普林斯顿大学的一个团队也为那些希望打造公平算法的程序员编制了一份指南。
关于分析的指导性假设是,使用分析的机构能够提供其决定的可审查记录。《数据保护指令》要求信息处理者向任何个人提供作出某个决定的理由,比如拒绝贷款申请的决定。
这个原则立意很好,但难以落实。主要有以下几个问题:
- 首先,个人必须清楚分析被用来达成了某个决定,必须知道是哪家公司做出了这个决定,必须明白自己有权挑战该决定,必须清楚提出挑战的途径和程序,必须感到这么做是安全的。
- 在很多情况下,这些条件并不是全都具备。例如,如果广告算法偏向男性,没有向某位女性展示她本来有资格应聘的招聘广告,她永远都不会知道自己成为了这种歧视的受害者。她也很难知道谁应该为这个决定负责。如果使用该算法的那家公司控制着你的生活,比如你的雇主或者你投保的保险公司,那么你很可能宁可息事宁人,不要求进行调查。
- 分析必须透明。有时候这很容易做到。例如,Wolfram Alpha将公布它用来返回搜索结果的规则。有些分析就确实有规则可依,且已经公开了自己的规则。
- 但很多人工智能程序,比如采用遗传算法或深度学习的程序,却并不透明(除非被设计成透明)。它们自行进化和改良,不需要人类干预。它们非常强大,也可以做到非常准确,但到它们得出结论的时候,整个过程已经变得极为复杂,大多数人都无法理解。
- 允许个人提出挑战的弥补方案不具有普遍意义:即使个人敢于要求推翻已经作出的决定,这也无助于改善系统的整体公平性。企业可能会为了某个人而重新审视其决定,但不会停止这种可能伤害成千上万人的做法。实际上,欧盟的《数据保护指令》并非在反映全社会的共同需求,而是把人们当成孤立的个体对待,而任何个体都不会有足够大的个人影响力来改变不公平的系统。
有鉴于此,似乎应该要求进行分析的企业提供多种形式的透明性。
首先,它们需要确定并披露出自己一直被用于作出影响个人的决定。
企业应该和利益相关者(尤其是受系统影响的人群)进行开诚布公的讨论,谈谈什么是公平,以及系统是否准确反映了人们生活的真实情况。
对人们生活产生重大影响的所有预测分析系统还应该接受查验或追踪。不接受查验的系统有如不打印选票的电子投票机:它们根本不适合这项工作。
著名计算机科学家辛西娅·德沃克(CynthiaDwork)发明了一种验证公平性的有趣方法,她称之为“觉知性公平”。借助差分隐私实验,她的团队试图利用密码学来验证算法的公平性。不幸的是,这项技术恐怕过于复杂,无法整合进“正在吞噬整个世界”的分析系统。
计算机科学家们在一篇论文中谈到了另一种方法:把公平性测试整合到系统开发过程中。这篇论文提出了一个有趣的前提:我们不能对种族、性别等差异视而不见。我们必须清楚地意识到这些差异,必须明确地测试它们。这种“平权法案”方法完全不同于某些统计学家和数据科学家的观点:他们相信,他们能够远离社会影响,他们的技术可以保证客观性。
案例研究:刑事量刑
在本文最后,将会探讨最广为人知的一项分析偏见研究,并从中得出一些新的结论。我说的是一篇关于为已定罪罪犯量刑的著名文章。今年5月,这篇文章发表于民间新闻网站ProPublica,在让公众了解预测分析的风险方面发挥了重要作用。朱莉娅·安格温(Julia Angwin)及其合著者将关注点放在了一款名叫COMPAS的软件上,很多地方的司法机关都用这款软件来决定是判罪犯缓刑还是把他们关进监狱。作者们说,这样的决定带有种族偏见,因为黑人罪犯比白人罪犯更容易被COMPAS划入高风险类别(意味着他们更可能在缓刑期内再次犯罪),这是不公平的。
作者们本来可以说COMPAS常常出错,但很多时候都是对的。他们本来可以建议,鉴于错误率较高,法官只应该把COMPAS当成众多的判决依据之一。但他们却更进一步,将自己推入了一场激烈的争论之中。
所有人似乎分成了两派:
- COMPAS的算法对于白人和黑人将犯下更多罪行(再次犯罪)的预测同样准确。
- COMPAS的算法对于黑人将再次犯罪的预测失误率远高于白人,这是错误的,也伤害了黑人群体,指控他们将会再次犯罪,而事实上他们并不会这样。
那么,什么是公平?
ProPublica的分析引发了争议。几位评论员说,ProPublica没有考虑到另一个重要差异:黑人罪犯被判二次犯罪的可能性确实远高于白人罪犯。The American Conservative网站发文解释了ProPublica为什么会得出这样的结论。《华盛顿邮报》的一篇文章也提出了同样的观点。基本上来说,这些文章都声称,黑人罪犯比白人罪犯更容易被划入高风险类别,这是由输入数据决定的,不可能受到人为操纵。
COMPAS软件的开发机构Northpointe在反驳ProPublica的那篇文章时,也提出了这一看法。对于ProPublica指控COMPAS将黑人错误地划入高风险类别的可能性远高于白人的核心论断,Northpointe反驳说:“这种模式没有显示出存在偏见的迹象,而是使用公正的评分规则得出的自然结果。那些群体碰巧呈现出不同的评分分布。”他们引用了一项非相关研究的结果,说他们没法做手脚调高黑人的高风险评分。
Northpointe还说,在那项研究中,白人的年纪往往比黑人更大,这降低了他们再次犯罪的可能性。ProPublica的研究确实发现,年龄与犯罪紧密相关。他们也以其他理由批评ProPublica的研究,但在我看来,黑人更可能被再次逮捕的倾向是所有这些评论的核心议题。
我们能从这场争论中得出很多有趣的通用结论。首先,数据科学本身就充满争议。尽管该领域以客观性为目标,但统计学家们并不总是意见相合。其次,在评判分析的影响时,评判者肯定会受到自身价值观的影响。ProPublica认为,COMPAS所遵循的道德标准已经偏离了Northpointe采用的那些标准。
但我们应该从中吸取的主要教训,则是提出以下问题:黑人的再犯率为什么更高?如果这是ProPublica所说的偏见的来源,为什么会发生这种情况?
在这里,我们必须借助社会科学研究,这些研究的探讨范畴往往要比这篇文章广泛得多。基本上来说,研究人员已经证明,在避免犯罪方面,黑人往往缺乏白人所能获得的种种支持。米歇尔·亚历山大(Michelle Alexander)的著作《新种族隔离主义》(The New Jim Crow)对此作了很好的论述。与白人相比,黑人不太可能拥有可以帮助他们找到工作的联系人,不太可能被聘用(尤其是在有犯罪前科的情况下),不太可能得到住房和其他赖以为生的重要资源,通常也不太可能拥有使他们免于再次犯罪的社会结构。
因此,预测分析结果的差异帮助我们看到了现实生活中的差异。
斯威尼的研究也得出了类似结论。她发问道:谷歌不恰当地展示黑人常用名的“逮捕记录”广告,谁应该为此负责?谷歌和提供那些广告的公司都否认存在任何蓄意偏见。我倾向于相信他们,因为他们如果刻意地把种族歧视思想融入到广告展示中,将会面临很大的风险。那么,还有什么其他的答案呢?终端用户行为:普通网络用户搜索黑人逮捕记录的频率肯定超过白人。这种社会偏见被算法捕捉并融入到了自己的分析过程中。
《麻省理工科技评论》的一篇文章表达了同样的看法,认为普通人的偏见会通过评级系统传递到临场经济(contingent economy)中。于是,我们得到的就是卡通人物勃哥(Pogo)的那句经典结论:我们已经遇到了敌人,那就是我们自己。或者,用迈克·鲁克德斯(MikeLoukides)的话来说:“我们的AI就是我们自己。”
可能的弥补措施
数据科学家本能地通过两个办法来验证准确性:检查输入数据和检查分析模型。为我们提供数据的真实环境就存在不公平的歧视时,需要我们积极进行详细检查,不遗余力地消除数据中的偏见。就像前文提到的COMPAS,显然依据的就是带有种族偏见的数据。我们应该有意识地采取措施恢复分析系统的公平性。
程序员和数据科学家可以成为对抗偏见的先锋。但是算法领域的用户和监管该领域的政策制定者也可以发挥带头作用,主动要求对算法进行审查。理想情况下,分析将会公开给公众接受审查,但由于上文提到的那些原因(保护商业机密、避免系统被玩弄于股掌之上等等),这通常无法实现。不过,可以按照严格的许可规定,授权一群专家以找出潜在偏见为目的,对数据和算法进行评估。
承认偏见是坏事(这个原则现在常常受到质疑)后,公众需要采取的第一步就是明白算法可能引入和强化偏见。然后,我们必须认识到,偏见不是来自于程序员(哪怕他可能是白人、男性和高收入者)或程序,而是来自于几千年来造成社会不公的那些因素。算法不是客观的,但它们客观地体现了人类自身的罪孽。
原文发布时间为:2017-01-14