现在,在理解、存储海量信息方面,机器似乎越来越高能了——但是它们和以前一样,在情感方面却没什么进展。不过,从 1990 年代以来,一小部分研究者致力于让计算机能够用人类方式去解读情感和反应。语音专家让计算机学会辨认音高、节奏和音强;他们研发的软件可以通过扫描一段女人和孩子间的对话,来判断这个女人是不是母亲,她是不是看着孩子的眼睛进行对话,以及她是生气、沮丧还是开心。其他计算机可以通过判断我们的语序,解读我们各种姿势来衡量情绪。还有其他计算机可以通过解读面部表情来实现这一点。
面部是情感交流的器官;研究估计表明,面部表情传达的信息量比语言更多,一些致力于解密面部表情信息的科学家已经取得了巨大的进展。其中最成功的是埃及科学家拉娜 埃我 卡柳比 (Rana el Kaliouby)。她现居波士顿,2009年创办了公司 Affectiva,曾被商业媒体评为发展最快的创业公司之一。事实证明,具有情感反应能力的计算机很有“钱景”。对卡柳比来说这毫不奇怪:她确信,很快它们将无处不在。
Affectiva:基于“表情”的公司
Affectiva坐落于马萨诸塞州沃尔瑟姆市,在双行道沿街商业区后的办公园区,是波士顿模仿硅谷而建立的走廊地带的一部分。总部有着西海岸创业公司的典型装饰——台球桌,变形椅——但整体感受是新英格兰地区的风格;许多员工都来自麻省理工学院。从会议室,越过一个大型停车场,可以看到通往波士顿的铁路线。
在九月份的一次拜访中,卡柳比和我参观了该公司研究的面部表情图,有些是科学图表,有些来自于漫画。卡柳比是计算机科学博士,也和其他成功的程序猿一样,她能轻松理解贝叶斯概率 (Bayesian probability)和隐马尔科夫模型 (hidden Markov models)。同时她又平易近人、情感丰富、待人热情,甚至爱搞笑。她信仰清真教,两年前开始戴头巾的时候吸引了周围所有人的目光,现在这成为了她的标志。麻省理工学院的媒体实验室的前主任弗兰克 莫斯 (Frank Moss) 告诉我,她“情商极高”。作为两个孩子的母亲,她在担心科技带来的影响。
卡柳比告诉我:“只要十年,我们就会完全想不起不能对装置皱眉的情景。未来我们皱眉的时候,机器会说: 噢,你不喜欢这样,对吧? ”然后她拿出了装有Affdex的iPad,这是她公司推出的一款软件,能够追踪四种情感:开心,困惑,惊讶,厌恶。软件每次扫描一个面部表情;如果有很多的话,首先将其逐个分离。然后,识别脸部的主要区域——嘴,鼻子,眼睛,眉毛——将像素点分别归类到每个部位,以简单几何模型渲染特征。我看着iPad上自己的即时动态表情,面部被绿色的点覆盖。“我们把它们分为可变形的和不可变形的点,”她说:“微笑或是假笑,你的嘴角会到处乱动,因此这里的点对于稳定面部表情特征毫无用处。而另外的点,比如你鼻子顶端的那些,它们不会动。”这些不可变形的点作为锚点,有助于判断其他点的运动距离。
Affdex也扫描肌肤变化的纹理——眼角细纹和眉毛皱纹的分布——并结合可变形点的星系来建立面部详细模型并反馈。辨别面部表情的算法,是通过与之前分析过的无数个表情相比较。“比如,你笑的话,它会实时辨别出你在笑,”卡柳比告诉我。我笑了一下,屏幕下端的绿色标识块迅速上涨。“试试看困惑的表情。”她说,我照做了,于是困惑对应的区块上涨。“就是这样。”她说。
和这个领域的其他创业公司一样,Affectiva建立在保罗 艾克曼 (Paul Ekman) 的研究成果之上。这位心理学家在六十岁是开始研究并建立了权威的理论体系:至少有六种人类通用的表情。不论性别、年龄和文化背景每个人都会一模一样地这样表现。艾克曼将这些表情分解为46个独立动作,即“动作单元”(action units) 的结合。他汇编了面部动作编码系统(Facial Action Coding System,FACS)——长达五百页的面部动作分类。从动画师到对撒谎的微表情感兴趣的警员,这套系统在学界和专业领域内已被使用了数十年。
计算机比人类更能读懂表情?
通过扫描面部动作单元,在辨别自发的愉悦与社交微笑(socialsmile),以及在区分痛苦是否真实方面,计算机远胜人类。计算机能够判定病人是否情绪压抑。计算机会不知疲惫地运行,能够显示甚至连本人都意识不到的、转瞬即逝的表情。
加利福尼亚大学的研究者玛丽安 巴特利特 (Marian Bartlett),是 Emotient 公司的首席科学家,曾在她的家人聚在一起看电视的时候测试了软件。在一幕低俗喜剧暴力情景出现的时候,单帧画面显示,她的女儿的情绪,由暴怒变换为惊讶,再是大笑。她的女儿都没有意识到一瞬间的不悦——但计算机捕捉到了。最近,在一份同行测评研究报告中,巴特利特的同事证明了扫描微表情,计算机可以预测到:当人们拒绝一笔资金的时候,一瞬间的厌恶表明他们认为这是不公正的,而一瞬间的愤怒预示着拒绝。
卡柳比经常强调,这种技术只能解读表情,解读不了思想,但 Affdex 是被作为一种可靠的情绪推测工具来推广——进入了潜意识领域。该应用发展的可能性非常多样。CBS 在拉斯维加斯的电视城应用了该软件去测试新节目。在 2012 年总统竞选期间,卡柳比的团队使用 Affdex 追踪两百多人观看奥巴马和罗姆尼辩论片段的表情,结果表明程序能以73%正确率判断选民投票结果。Affectiva 与 Skype 的竞争对手 Oovoo,将该程序和视频通话融合。她告诉我:“越来越多的人进行视频会议,但是数据都没能捕捉用以分析。”事实证明,在商业谈判中,使用软件来判定谈话的另一方隐瞒了什么信息。“这种高科技会告诉你, 好吧,先生,不管有任何表明可以合作的迹象。或者,他刚刚笑了,意味着他没有被说服。 ”
“情感计算”的由来
卡柳比与她的导师罗莎琳德 皮卡德 (Rosalind Picard) 一起创办了Affectiva。后者是麻省理工学院媒体实验室的教授,她早年的研究成果为公司打下了基础。皮卡德拥有电气工程和计算机科学双学位,于 1990 年加入媒体实验室研究图像压缩技术,但她很快遇到了瓶颈。皮卡德认为,如果计算机能识别图像内容,那么程序就能被改进。但要做到这样不仅仅要有洞察力,还要有前瞻性;和大脑一样,计算机必须要“看懂”,而不仅仅是“看见”;和人脑一样,计算机要会识别物体,然后判定哪个重要。
某一天,皮卡德拿起了理查德 西托威克 (Richard Cytowic)《尝出外形滋味的人》(The Man Who Tasted Shapes),一本关于通感的书。西托威克举例说,部分感知是在大脑边缘系统中处理的。而在神经解剖学中这是原始的部分,主要处理注意力、记忆和情感。注意力和记忆似乎和皮卡德想解决的问题密切相关;而她当时希望,感情是不相干的部分。但当她深入研究神经科学文献,逐渐相信,太少或者太多的感情都会引发不理性的思考。与情感处理相关的脑部受损导致人们丧失了做决定、看见更宏大的图景以及运用常识的能力——而这些都是她想让计算机拥有的。
“我想别人认真对待,而当时情感不是一个严肃的话题,”皮卡德这样告诉我。在1995年她发出了研究成果相关的非正式论文,引用了莱布尼茨 (Leibniz),星际迷航以及居里和库布里克。论文证明如感情化推理对于真正的机器智能是必须的,且在编写与人产生交互的程序时,程序员应该考虑到情感因素。一开始,她的想法不被人理解。一位科学家问她:“为什么你要研究感情呢?这毫不相关啊!”然而皮卡德不为所动,拒绝了补助图像压缩研究的巨额资金,将她的想法扩充为一本名为《情感计算》(Affective Computing) 的著作。无意间,她命名了一个计算机科学的新领域。
卡柳比当时仍然在开罗,是美国大学的一名本科生。在1998年,她以班级第一名的成绩毕业,获得了硕士学位奖学金。她立志教授计算机科学,但是终身教职要求海外博士工作经验。“我爸爸的意思是, 啊,要是你去的话,回来的时候就会嫁不出去了。 ”在迟疑不决的状态下,她向当地的一家科技创业公司投了简历。但很快,卡柳比就退出了求职大军,继续攻读硕士。但她给那家公司的创始人之一,威尔 艾明 (Wael Amin)留下了印象。
他从小移居阿根廷,非常同情她所面临的社会压力。于是他联系上她,鼓励她继续学业。过了不久他们就结婚了。在研究生院,卡柳比一直在寻找自己的研究方向。“计算机改变了人们连接方式,这就是我被吸引的地方。”她回忆说。某一天,艾明递给她一篇皮卡德著作的书评,然后她买了一本。“花四个月书才到埃及——出于一些我无法理解的原因,它一直被扣在海关。”她说:“但最终我读到了这本书,受到了启发。”尽管没有见过皮卡德,卡柳比已经视她为偶像。“她是成功的女性科学家,并且开辟了让人振奋的新领域。”于是卡柳比确定了她的方向:研发出能解读面部表情的算法。
浩大工程、艰难推进
人脸如同变换中的地貌,有着无数多的微小差异和高度复杂性。不论脸部特征如何,背景、光源、角度如何,人们都能毫不费力解读表情,这简直是一个奇迹。想要让计算机做到相同的事情,程序员得应付无尽的可能性。这些程序需要机器学习,即计算机要在一堆数据中找到找到模式,然后用以解读新的数据。
从开罗,卡柳比联系了一些早期的数据指导团队。艾克曼当时开始将面部动作编码系统自动化,建立能定位离散动作单元的系统。以九十年代的技术,这工作确实很费劲。本科生(或者是艾克曼自己)在设定好的背景下夸张地做表情。视频的每一帧都要花25秒数字化,而在关键帧不得不人工标注每一个面部移动。“实在有太多挑战了,”一位早期的研究员这样说;他所设计的系统其中一个版本,很难追踪可变形点。“经常会有一点点偏差,然后在处理更多帧的时候错误开始累积。”每十秒钟,他必须重新开始实验。
卡柳比希望建立一个强大到能在真实环境中使用的系统。但当2001年,她在剑桥攻读博士时,她的指导教师和同学都不了解情感计算。“他们很好奇,也很疑惑:为什么你想要研究这个?”在她研究目标报告中,一位观众说让计算机学会解读表情会遭遇的问题,和他患自闭症的兄弟所遇到的困难不相上下。卡柳比不了解自闭症,于是开始研究,寻找线索。那是,剑桥自闭症研究中心正在进行一项浩大的工程,创建所有人类表情的目录,而这有助于自闭症患者进行社交。不是像艾克曼那样将表情分解为组成部分,研究中心对自然易懂的肖像更感兴趣;在“思考”的主题下,分为担忧,选择,想象,判断和沉思。中心雇佣了六位演员——男女都有,不同年龄层和种族——在摄像机前面表演。二十位评审看每一个片段,只有几乎全体通过才能确定标注表情。在项目的结束,一共识别了412个表情。
卡柳比马上意识到这个目录潜藏着一个前所未有的机会:丰富的、经过验证的数据,极其适合计算机学习。在她完成博士学业前,她已经建立了“读心者”,一个可以在相对无序的情况下追踪几种复杂情绪的程序。当她意识到这个程序的潜能,她想知道是否可以为自闭症患者建立起“情感助听器”。佩戴者需要携带一台小型计算机,耳机,摄像机,用以扫描人的表情。计算机会用轻柔的语调指示合适的行为:继续交谈,还是转移话题。
在完善这个想法的同时,卡柳比得知皮卡德计划参观她的实验室。“那是我整个夏天的亮点,”她回忆道。“她本来只是和每个学生交谈五分钟,但最后我们两个聊了一个小时。”皮卡德认为卡柳比的系统是最稳定的。两人决心在这方面合作,而美国国家科学基金会给予了将近百万美元来让她们建立原型。
两个女性科学家的无间合作
媒体实验室几乎是发明创造者的避难所。创立者曾这样说:“忘掉那些技术论文并且专注更小范围的理论。让我们用实践证明它。”卡柳比发扬了这种精神,而尽管皮卡德职位更高。弗兰克 莫斯说,她们两人无间合作。实验室的每个人都戴着小型可穿戴的相机,而皮卡德告诉我:“我们聊了许多关于 嵌入 的话题。”在回埃及的期间,卡柳比会打电话加入会议。皮卡德记得在一次机器人展示中:“拉娜(卡柳比)通过一个笔记本摄像头还是什么的,加入了Skype,然后我们将摄像头留在地板上去看展示。我感觉不太好,像是把拉娜的身体留在地板上了一样。于是我想,需要把摄像机戴在身上。然后,当我四处走动的时候,拉娜就像是在我身上一样。”
在卡柳比专注于“读心者” (MindReader) 软件的同时,皮卡德在测试不同的装置——例如能测试用户崩溃程度的鼠标——尝试通过追踪生理反应来辨别感情。最有潜力的一个 (后来被命名为Q)被绑在身体上,来记录例如皮肤电流传导等等反应。皮卡德一直戴着,基于个人体验写日志来追踪数据。
卡柳比和皮卡德认为她们的系统能互补,并在2007年开始测试一个为行为障碍儿童设计的系统。皮卡德希望她的生物传感器能洞察怒气或其他情感爆发的来源;一个自闭症儿童可能看起来很平静,不在状态,但是Q装置显示她的皮肤电导是正常两倍。卡柳比的系统则帮助他们在社会情景中找到方向。
“有一次我真的是没办法了,”卡柳比回忆:“有一个拒绝眼神接触的小男孩。在孩子中这很常见——说明他们正经历着信息过载。而我们正在用类似 iPad 的设备实验的时候,那个小男孩戴上摄像头来得到反馈,其实是用设备来避免面对面接触。他通过屏幕来观察我。”当他和别人沟通良好的时候,他也拿着这个装置,而他们越聊,他的自信越强。“然后他开始把平板放低了,直到我们两个眼神接触。那真是一个特别的瞬间。天哪,科技真的能帮到人。”
应用于企业需求
当团队在完善“读心者”的时候,卡柳比将软件上传到一个服务器上,企业赞助商可以在那里测试任何他们觉得有趣的实验室产品。出乎她意料的是,这个软件马上成为下载次数最多的一个。百事想知道是否能将其运用于测评顾客偏好习惯。美国银行对自动柜员机测试感兴趣。丰田想知道能将其用于更好地理解驾驶员行为——或许是设计出一个检测驾驶员困倦程度的系统。需求如洪水般涌来——从微软,惠普,雅马哈,本田,吉布森,贺曼,NASA,诺基亚——而卡柳比尽她所能改造了软件,以适应每一个需求。“他们有很多问题。 这个数据意味着什么? 我们如何让它适应某个特定环境?福克斯的副总裁就那么说的: 我们想在所有试播节目上测试。 我就想说: 我们就是一实验室而已,我们没那资源。 ”
这些需求太多,以至于压倒了自闭症研究。卡柳比建了一个电子表来记录赞助商需求,然后在2008年11月,她和皮卡德拿着表去找实验室主任莫斯。“我们说, 这里是赞助商想要的东西——所以我们需要扩充团队到现在的两倍。 ”卡柳比说:“然后他说, 解决方法不是增加研究人员,而是独立出去。 ”卡柳比不愿意离开学界:“我们真的想要专注在爱有益的科技应用上。”但是莫斯认为市场会让科技发展更好更灵活:能应用于福克斯公司的设备也能更好地帮助自闭症患者。他说建立一个“双重底线”的公司是可行的——不仅运转良好,而且改变人们的生活。
卡柳比和皮卡德着手成立一家表情智能领域里的“小IBM”——志在开发一系列基于情感计算的产品的初创公司。政府机构开始询问关于这项技术的事情,但卡柳比告诉我,她拒绝了。一些有关公司利益的事也警醒了他们。皮卡德说:“有人来问, 你能监视我们的员工并不被察觉吗? 或是 你能告诉我顾客的感受吗? 。我就想, 所以我才觉得这个想法不好。 我记得有人想把我们的东西放到终端来检测人们,然后我们回到Affectiva,拒绝了他们。我们说, 我们不干那些——我们对受试者有基本的尊重。 但对一个小公司来说,这实在是太艰难了。有人愿意资助你,但你却拒绝他们。”
“读心者”是基于演员的表情,而非真实行为,因此代码要全部重新编写。2011年,公司在超级碗线上广告中测试,获得了真实情感反应的数据库;后来卡柳比和哈佛商学院的塔莱斯 特谢拉 (Thales Teixeira)教授合作。在一个更加严谨的实验中,为 250 名受试者播放广告。Affectiva 的 CEO 大卫 伯曼 (David Berman),曾是一位销售人员,将公司从辅助科技的方向扭转到市场研究,因此吸引了数百万美元的风投。“我们的CEO完全不适应医药领域,”皮卡德说。于是出现了紧张的局面。四年之后,皮卡德被迫离开团队,她的研究团队也被重新分配。马修 古德温 (Matthew Goodwin) 是公司的元老级研究员,现在是技术委员会的一员,告诉我:“我们以一系列极有竞争力的产品开始。它们能有效协助那些在察觉情感、产生情感方面有困难的人们。然后它们开始只强调并且,在广告上发力,去预测顾客是否喜欢产品,完全偏离了原来的方向。”
对于皮卡德的离去,卡柳比十分沮丧。但是公司新的契机确实不能否认。2011年3月,她和团队受邀向MillwardBrown(全球市场调研公司)高层展示“读心者”。卡柳比很坦诚地谈及系统的限制——软件仍然不能有效区分微笑和鬼脸——但高层人员还是大受震动。广告测试经常需要依靠大范围研究,经常涉及理性思考,而不是无意识或者潜意识的情感。而正是这种情感因素让市场人员非常感兴趣;高科技能带来好的结果。一年前,MillwardBrown 组建了神经科学团队,尝试将脑电图科技加入到工作中。并且也雇佣了艾克曼系统的专家来研究视频。但这些理念被证实无法继续推进了。而公司管理层提出:早先公司研究过四个广告,如果Affdex能成功测量人们的对这些广告的情感反应公司将成为顾客以及投资者。“赌注如此之大,”卡柳比告诉我:“我记得CEO 说, 我们全部希望都在这上面了。 ”
MillwardBrown 选择的广告中有一个是多芬。名为“冲击”,短片以一个小女孩的图片开头。而接着镜头切换到了主人公视角,一大波影像向她涌来——将女人一生的经典画面压缩到了32秒——还是以天真的小女孩为结尾,配着广告语“在美容产品影响你的女儿之前,和她谈谈心吧。”该广告广受好评,但是调查中发现许多人觉得没办法耐着性子看完。Affdex扫描了超过一百位受试者,检测到了相同的反应。但同时它也发现了在某一瞬间这种不适感消失了。“这款软件能告诉我们看不见的信息,”MillwardBrown 高层格拉汉姆 佩奇这样说。“人们常常无法说清此类细节。而当涉及到负面内容时,他们倾向于表现得礼貌。”MillwardBrown母公司 WPP 给Affectvia投资了450万美元。
原文发布时间为:2015-01-20