Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦

雷锋网按:Automatic
Alt-Text (AAT) 的发布让盲人(或使用屏幕阅读器的用户)更好地读懂新闻推送  (News Feeds)
里的照片的内容。以访谈,可用性测试以及调查为手段的用户研究给工具的发明提供了帮助。我们将在本文简要介绍这项工作的一些亮点,雷锋网(公众号:雷锋网)独家编译,未经许可不得转载。

这项工作的主要作者、数据科学家Shaomei Wu将会出席本周在波特兰举办的CSCW 2017,届时她将在会上详细介绍该工具的功能以及所进行的研究。如果您想面对面探讨,请在会上和我们联系。

背景

众所周知,Facebook的新闻推送大多都带有图像和视频,随着配备高画质相机的手机上越来越普及,大家分享的图像和视频会越来越多。通过视觉媒体让大家观看和讨论所发生的事,是Facebook提供的一项关键功能。事实上,人们每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超过20亿张。听起来不错吧?有人欢喜有人愁,对盲人等有视觉障碍的人来说,他们注定很难参与围绕图片展开的交流。

Facebook的目标是于创造一个更加开放、互联的世界,和赋予人们分享的能力。超过3900万的盲人和2.46亿有严重视力障碍的人分布在全球,他们都曾经有过因为不能全程参与以照片和视频为中心的交流而感到被排斥或被孤立的沮丧经历。为了让更多的人参与图片社交,Facebook推出了AAT技术,希望屏幕阅读器用户也能够理解新闻推送中大部分图像的内容(有望很快覆盖所有图像!)。

前世今生

该从哪里开始克服这个挑战?关于如何创建AAT和构建计算机视觉模型的Lumos技术,详情请参考Face-book数据科学家Shaomei Wu以前的技术帖子。在这里,我们聚焦如何和盲人合作从而给他们创造绝佳的用户体验。

从以前的研究中可知,一些服务会使用定制化的服务(或叫好友帮忙)来描述照片,这种服务一张照片对应一个请求。不幸的是,这种方法存在一些缺点:

•耗时很长

•需要一个愿意执行任务的人在场

•浏览新闻推送被中途打断

•最重要的是很难进行扩展

然而积极的一面是,朋友或被委托人针对照片给出的翻译可以达到很高的精准度。考虑到你们的关系,朋友还可能提供额外的图片信息(例如绘声绘色地进行描述或讲一个隐藏其中的玩笑)。但是如何取其精华去其糟粕地扩展这个方案?为此我们的目标是革新这种定制服务,以此构建一个新的Facebook功能。

AAT项目通过寻求更佳的算法,针对照片得出有用和准确的描述,这种方法不会受限于用户的知识面,可以在更大范围进行扩展。由于alt-text具有HTML属性的这个设计,可作为图像的替换文本,网页的图像内容管理员可以轻松把图像更换为alt-text,并且采用W3C可访问性标准,当用户把屏幕阅读器软件的光标移动到任一图像上,软件都能对图像进行识别和朗读。

研究

在构建可扩展的稳定人工智能系统的10个月里,我们完成了两类研究。我们对Shaomei

Wu设计的原型进行了质性研究和可用性测试,从中找出了系统的关键性缺陷,并对原型系统进行了改善。系统发布后,以前感到沮丧和困惑的人们现在惊喜又感谢。对研究结果进行三角测量的另一种方法是进行这样一个实验:告知并获得测试者(实验组)的同意为他们启用一项实验功能,与没有启用该功能的组(控制组)进行同样的实验。两组成员都是VoiceOver
Facebook iOS用户。

访谈和可用性测试

在这个过程中我们遇到的最大挑战,是平衡人类想获得更多图片信息的欲望和图片蕴含信息的质量以及不同智力之间的平衡。解读视觉文本是非常主观和依赖背景,例如,即使人们主要关心谁在照片里以及他们在做什么,有时候背景才是使照片有趣或重要的关键。这个关键的发现最终决定了我们呈现给用户的句子是如何构成的。

此外,对人类来说轻挑选出照片最有趣的部分易举就能,这事对即使最聪明的人工智也是难如登天。社会知识和大量有效的反馈是这项服务提供绝佳用户体验的关键,我们希望最终能实现这点!通过访谈我们意识到,相较于遗漏大家不确定的事物,给出错误的信息往往更糟糕,例如,系统不小心把照片里一位娇小女性误认为一个小孩。我们同样吸取其他公司的AI系统把事情变得糟糕的教训,例如把人类描述成动物,这会使各方处于苦恼境地。如果用户知道朋友并没有孩子,系统给出这样的评论会导致用户难堪和引起社交尴尬。牢记我们与开发团队要创建这样的一个系统:

•可以大规模识别内容

•可以挑选照片中有趣的概念或事物

•可以向用户提供有意义的反馈

•可以无缝互动

在定性研究过程中我们学到最后一个大教训是,不要谈论AI从照片中得出哪些概念的确定性有多大,这非常重要。否则据我们所知,谈论这点会使参与者觉得这个系统不吉利或者非常不智能,并对系统逐渐产生不信任感。我们的补救措施是,(高于AI一定精度阈值的前提下)极度肯定从照片中得出的概念,并把复述评价AI系统所得概念有多正确的功能删除。尽管准确度提高了,系统初始版本能识别出至少一个概念的照片比例,占到了上传到Facebook所有图片的50%以上,随着时间的推移,这个数字将随着更好的技术问世而上升。

开展试验以来,和这些乐于助人的参与者一起工作,让我们在如何面试盲人这方面受益良多,我们希望把一些实用的建议分享给做盲人定性研究的同行。

一个小小的经验是,即使他们根据自己的需要预设了辅助功能,也要让盲人参与者自带设备,因为这让他们在研究中更舒适自然(对任何参与者来说都是一个好建议)。

另一个提示是要求使用屏幕阅读器的用户将语音速率稍微降低,这样参与者才能既跟得上读音又能出声思考。出声思考在很多方面都是关于参与者究竟如何解读屏幕阅读器所读出的话。如果思维跟不上这两个声音(即参与者和阅读器的声音),即表示您错过了一半的信息。在开始这阶段之前,学习使用屏幕阅读器将使您成为一个更有效率的主持人。

最后,一些研究人员说,招聘屏幕阅读器用户极具挑战性,因为许多用户体验招聘者不熟悉这类人群,与倡导团体(例如Lighthouse,感谢您的支持)合作,或者联系专业招聘人员寻找参与者更加高效。

调查

未知的定性理解还太多,为此我们把研究转向更全面、被更广泛理解地描述AAT的使用感受的方向,调查了大约550名确定有一种(或以上)视力障碍或失明参与者。如上所述,总样本大约9,000份,我们收到来自控制组(使用普通版本Facebook)和实验组(使用ATT版Facebook)的综合反馈。参与者都填写了几乎相同的问题,唯一的区别是实验组会问一些关于AAT的问题。参与者都能选择参与抽奖活动,十名幸运儿获得了亚马逊的100美元礼品券。

与其他调查一样,为目标受访者设计一个简洁、通俗易懂的调查很重要,为盲人用户创建调查,我们发现了一些实用技巧:

•避免使用水平单选按钮和拖放问题。前者比垂直选项更难分页,而后者则不可能应用到屏幕阅读器上。

•避免使用矩阵和星级评分问题。前者有时在HTML侧不会被正确地标记,也就不可能分辨矩阵中的应答者在哪,而后者应该被替换为非图形HTML元素,使不同的屏幕阅读器能通用地访问。

•避免给屏幕阅读器提供返回功能,否则误触导致的错误会频频发生。

•相比调查使用鼠标操作系统的视力正常用户,在屏幕阅读器上进行调查所花的时间更长。如果屏幕阅读器用户响应调查对您来说很重要,那么首先引导用户阅读简介很重要。

•与传统的优秀调查设计一样,尽量减少每页的问题,避免认知复杂性和导航问题。

•使用间距来确保单选按钮和复选框与其标签关联清楚,能避免出现模糊与混乱。

•缩略语在调查中很常见。然而并非所有受访者都对它们熟悉或记得住,屏幕阅读器可能会混淆字母缩写和缩略语的发音。“首字母缩写”和“缩略语”提示标签可以用于缓解这一点,并且“标题”属性在需要的时候可以提供更多的信息。

调查/实验结果:亮点

相比于没有打开AAT功能的控制组,测试组中的人员认为AAT作用很大,他们的答案也反映出了这一点。更广泛地,测试组的参与者更有可能这样做:

•给新闻推送中的照片点赞(或对照片作出回复)

•相比于非AAT用户,认为Facebook更关心可访问性

•总体而言,相比于非AAT用户,认为Facebook更有用

•最重要的是,能在更短的时间内弄清楚照片中内容

调查的样本问题:

我们请AAT用户确认,在点击新闻推送中的照片时,是否听到这样一句话:“图片可能包含......”,如果他们说真的有听到这句话,我们会问他们几个问题!

问题:(如果在测试组)听到这个替换文本后,感觉如何?(检查所有适用)

测试组中的受访者在听完图片中的替换文本后,一组随机词语随即被提供给他们选择,让他们用这些词语描述听完的感觉,此外我们还设立了一组可以随意描述感受的参照组。根据我们的研究结果,我们发现
着重强调愉快(29%),惊讶(26%)和印象深刻(25%)等的积极词语遥遥领先。

问题:(要回答这个问题,请回想在新闻推送中最后的几张照片)分辨出这些照片是和什么有关的难易程度有多大?

两者在回答“稍微容易”(23%vs2%)和“极其困难”(42%vs73%)的这两个难度上,差距都很大,这点展现了ATT的附加价值

下一步呢?

我们承认这一功能还不成熟,该如何改进AAT,几乎所有受访者都在他们的写入反馈上提出了建议。这些建议集中在以下两个类别:

•从图像中提取和识别文本(29%的人提了这个建议)

•尽可能提供图像中人物的信息(26%的人提了这个建议)

其他请求包括扩展算法的词汇、增加现有标签的调用、使AAT在更多的语言和平台中可用。

最后的想法

将快速增长的视觉社交网络覆盖更多地区的前景让我们感到兴奋。对Omid来说,这是他在无障碍领域的第一次深度探索,能接触到和以往所从事的完全不同类型的统计学让他十分着迷。Julie以前的工作是让服务更容易互联,这项工作让她以前的工作和Facebook出色的工程能力连接起来。

Facebook担起致力于使世界更加开放和连接的使命,Facebook无障碍团队 (accessibility team) 将在为每个人提供卓越用户体验的路上继续探索。在成功实现这项功能的基础上,我们聘请了第一个全职的无障碍研究员,现在团队上下都对未来的发展充满憧憬。

本文作者:陈鸣鸠

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-08-01 11:17:49

Facebook将反馈融入AI系统,视觉障碍者现在也能“读懂”照片啦的相关文章

真相 | Facebook AI系统并未“失控”,研究员已修正bug

雷锋网AI科技评论按:英国<太阳报>8月1日报道了一则"机器人正在接手人类主动权吗?"的新闻.文中讲到 Facebook最近关停了一项人工智能实验,因为两个机器人开始用自己的语言交流,人类并不知道它们在讲什么. 随后,Facebook关闭"失控"AI系统,机器人发展出人类无法理解的语言等类似这样的标题占据国内各大科技媒体头条.然而AI科技评论并没有跟风,为了弄清事情的来龙去脉,给公众一个客观真实的报道,我们了解到: Facebook并没有关闭这个AI实验

D1net阅闻:AI系统读唇语:准确率高达93.4%

AI系统读唇语:准确率高达93.4%根据牛津大学新发表的论文,被叫做LipNet的AI系统,能够将视频中人物的嘴巴活动与其台词进行匹配,准确率高达93.4%. Ayla战略牵手IoT数据分析领导者mnubo 双方正式建立战略合作伙伴关系,将mnubo的智能设备技术与Ayla的物联网平台整合,从而向IoT产品制造商提供高级数据分析和商业情报工具及服务. Facebook拟通过无人机为偏远地区提供宽带 北京时间11月8日晚间消息,Facebook正与印度政府和电信公司谈判,商讨通过其Aquila太阳

AAAI学会主席Rao演讲:AI系统崛起后的未来应当是更好地服务人类 | CCF-GAIR

2017年7月7日至9日,全球人工智能与机器人峰会CCF-GAIR大会在深圳大中华喜来登酒店举行.本次由CCF中国计算机学会主办.雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的大会聚集了全球30多位顶级院士.近300家AI明星AI企业 ,参会人数规模高达3000人,都是国内顶级阵容.  在7日上午的人工智能前沿专场中,亚利桑那州立大学教授.AAAI学会主席Subbarao Kambhampati教授进行了题为"人工智能的崛起与人类感知AI系统的挑战"的演讲,分享了他在AI浪潮中的

【AI系统首次实现真正自主编程】利用遗传算法,完爆初级程序员

本文讲的是利用遗传算法,完爆初级程序员,让AI自动编程一直是计算机科学家的梦想.目前这个方面的成果还非常有限,比如让AI自动补完编程语言,或者执行简单的加法程序.今天我们要介绍的这项工作,号称是第一个能够全自动生成完整软件程序的机器学习系统"AI Programmer". 研究人员表示,他们用这个系统证明了长久以来的假设,那就是功能完备的程序确实能够被自动生成.具体到这项工作,AI Programmer利用机器学习中的遗传算法,模拟复杂的指令.虽然现在AI Programmer生成的程

OpenAI最新研究:“对抗样本”能轻易黑掉AI系统,如何抵御?

雷锋网(公众号:雷锋网)按:近日,OpenAI发表最新研究,论述了AI安全领域的一大隐忧:"对抗样本",它可以轻易地让机器学习系统产生误判,这会对AI的应用实践产生影响.在这篇由"GANs"之父Ian Goodfellow领衔撰写的文章里,OpenAI针对"对抗样本"进行了防御策略的实验,其中有两种方法效果显著,但也并不能解决根本问题.OpenAI表示设计出抵抗强大.具有适应性攻击者的防御策略,是非常重要的研究领域.本文原载于OpenAI Blo

Facebook将开发在线支付系统与eBay和谷歌竞争

北京时间7月1日早间消息,据国外媒体报道,Facebook将开发在线支付系统与eBay和谷歌竞争. 谷歌Google Checkout业务负责人普拉桑特·弗洛利亚(Prashant Fuloria)上月离职后现在已经加盟Facebook,他将负责一项名为"Pay With Facebook"的在线支付业务. 尽管Facebook创始人马克·扎克伯格(Mark Zuckerberg)曾表示,在线支付只是一个长期目标,但"Pay With Facebook"的目的很显然

Silverlight 2.5D RPG游戏技巧与特效处理:(十一“.NET研究”)AI系统

谈到人工智能(AI),这个话题就太大了:大学里有<人工智能教程>专门讲这方面的知识,什么大名鼎鼎的人工神经网络.遗传算法等等均可一窥究竟,这里如赘述似乎有些班门弄斧,我们暂且丢它一边去吧. 本节,我的主要目的是与大家共同探讨AI在RPG游戏中的应用.看过之前教程的朋友一定不会陌生,A*算法就是其中的一个重要组成部分:而本系列Demo中则使用了更为高级的改进型A*算法,不仅优化了性能,同时也大幅提升了玩家的操控体验.除此之外,AI更常见于RPG游戏中的角色,接下来我将引领大家循着AI的足迹,逐步

一起谈.NET技术,Silverlight 2.5D RPG游戏技巧与特效处理:(十一)AI系统

谈到人工智能(AI),这个话题就太大了:大学里有<人工智能教程>专门讲这方面的知识,什么大名鼎鼎的人工神经网络.遗传算法等等均可一窥究竟,这里如赘述似乎有些班门弄斧,我们暂且丢它一边去吧. 本节,我的主要目的是与大家共同探讨AI在RPG游戏中的应用.看过之前教程的朋友一定不会陌生,A*算法就是其中的一个重要组成部分:而本系列Demo中则使用了更为高级的改进型A*算法,不仅优化了性能,同时也大幅提升了玩家的操控体验.除此之外,AI更常见于RPG游戏中的角色,接下来我将引领大家循着AI的足迹,逐步

Silverlight 2.5D RPG游戏技巧与特“.NET技术”效处理:(十一)AI系统

谈到人工智能(AI),这个话题就太大了:大学里有<人工智能教程>专门讲这方面的知识,什么大名鼎鼎的人工神经网络.遗传算法等等均可一窥究竟,这里如赘述似乎有些班门弄斧,我们暂且丢它一边去吧. 本节,我的主要目的是与大家共同探讨AI在RPG游戏中的应用.看过之前教程的朋友一定不会陌生,A*算法就是其中的一个重要组成部分:而本系列Demo中则使用了更为高级的改进型A*算法,不仅优化了性能,同时也大幅提升了玩家的操控体验.除此之外,AI更常见于RPG游戏中的角色,接下来我将引领大家循着AI的足迹,逐步