如今,市场对数据科学家的需求是巨大的。但是也有不利之处,因为有偏见的数据,其所面临的风险也是巨大的。数据科学家凯西·奥尼尔为此创建了数据科学家的一个伦理政策。
人们可能不知道,数据科学有一个潜在的黑暗面,这是许多企业所忽视的东西。在当今社会,庞大的数据量对数据科学家造成巨大需求的时候,数据科学家凯西·奥尼尔不久撰写一本著作,名为“数字破坏武器:大数据如何增加不平等和威胁民主”。她担心的是,在急于利用大数据的情况下,可能会因为内置偏差使得结论不准确,并且可能具有相当的破坏性。她与高级技术编辑瓦勒瑞·斯威特一起探讨数据科学领域的偏见,以及为什么企业需要制定数据科学伦理政策。
奥尼尔:人们认为可以解决任何数据问题,对此我感到恼火。我对这些数据持怀疑态度。
斯威特:那么,那些对数据科学领域具有偏见的企业需要害怕什么呢?
凯蒂·奥尼尔:我们有一个信任问题,而如今却没有足够的审查。每个组织都需要数据科学家。但是,我们需要让数据科学家在这些团队中增加更多类型的人,以确保选择是经过深思熟虑的。数据科学家没有接受过道德伦理思考或思考这些问题的培训。社会学家可能会看到非预期的后果,但数据科学家可能会导致愚蠢的事情发生。人们的正义和预警数据是基于吉姆克鲁法律的,如果组织使用这些历史数据来训练当前的模型,他们将是种族主义。假设是,一旦你对数据做了一些事情,它就会自动使得价值和目标消失。社会科学家比数据科学家更为了解其不当之处。
斯威特:如果我们不注意数据科学领域的偏见,有什么风险?
奥尼尔:在这个过程中有一个风险,我们实际上得到的是自动化的偏见。如果团队中没有人提出正确的问题,你可以得到偏向于妇女或颜色或老年人的算法。在不久的将来,建立评估员工的内部算法的企业可能很快将面临歧视性流程的诉讼。这不是痴人说梦。人们需要监控这些事情,并确保做得更好,并确保他们不是歧视性的。
斯威特:这只是一个内部问题吗?
奥尼尔:当涉及到招聘等事情时,这是更明显的,但你可以创建面向客户的算法。如果你的业务与贷款有关,歧视可能就是一个很明显的因素。这都有很多例子。
斯威特:那么,人们如何应对数据科学领域的偏见?
奥尼尔:一些大学开始向数据科学家讲授伦理课程。但在这方面没有很多监管。生物医学实验有很多规则和伦理,研究人员必须征得同意。这种事情不存在于大数据的世界。我们都不断地进行A/B测试,大多数时候是愚蠢的事情,如“这个广告图片是什么颜色的?我们不必同意这些事情。这不是真正的测试,这个事情让人困扰。人们实际上却认为这些算法是完美的。没有理由认为他们工作会犯错。就像一家汽车厂商没有测量结果,没有经过安全测试,就将车辆直接上路行驶一样。因此人们必须测量和验证。”