李飞飞:为什么计算机视觉对机器人如此重要?

根据Guide2Research的排名,IROS是计算机视觉领域排名第四的学术会议,前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用,与之相关的“感知”也正是历年IROS大会上的重要内容,随着机器人研究的发展和“越来越接近人类”这个目标的进一步深入,越来越多的学者更深刻认识到了计算机视觉对机器人整个行业发展的重要性。雷锋网认为,随着近几年深度学习在计算机视觉领域的突破,计算机视觉在机器人领域的应用也将会迎来一个新的时期,这也是今年的IROS大会邀请李飞飞教授到IROS做大会报告的原因。

如李飞飞开场所言,这是她第一回参加IROS,但她希望和做机器人研究的朋友们进行交流,分享在她眼中计算机视觉对机器人意味着什么,并介绍她在ImageNet后,与其斯坦福研究团队正在从事的其他研究项目,而这些项目对未来机器人的感知和认识我们所处的环境尤为重要。

“希望可以说服做机器人研究的朋友,(计算机)视觉是机器人的杀手级应用。”在演讲前一天,李飞飞在Twitter上这么说。

由于篇幅限制,报告分为上下两篇。在上半部分,李飞飞解释了为什么计算机视觉会是机器人的杀手级应用,雷锋网(公众号:雷锋网)作了不改变愿意的删减。

李飞飞在 IROS 2017

李飞飞:我会与大家分享最近在做的视觉工作,聊一聊计算机视觉与视觉智能领域的历史背景。这些都是仍在进行中的研究,欢迎自由讨论。

视觉究竟有多重要?

朋友建议我,在机器人大会演讲至少要放一张机器人的图片。我挑了一张最喜欢的:

问题来了:为什么在这幅儿童画里,机器人是有眼睛的?

我认为这与进化演进有关。不管是智慧动物还是智能体,眼睛/视觉/视力都是最基本的东西(儿童在潜意识里也这么认为)。让我们回到 5.4 亿年前的寒武纪——在寒武纪生物大爆发之前,地球上的生物种类算不上多,全都生活在水里,被动获取食物。但在距今约 5.4 亿年的时候,非常奇怪的事情发生了(如下图):短短一千万年的时间内,各种各样的新物种纷纷涌现,这便是“寒武纪大爆发”。

这背后的原因是什么?

最近,一名澳大利亚学者提出了一套非常有影响力的理论,把寒武纪大爆发归功于——视觉。在寒武纪,最早的三叶虫进化出了一套非常原始的视力系统,就像最原始的德科相机,能捕捉到一丁点光。但这改变了一切:能“看”之后,动物开始主动捕食。猎手和猎物之间从此开始了持续数亿年的“追踪—躲藏”游戏,行为越来越复杂。从这个节点往后,几乎地球上所有动物都进化出了某种形式上的视觉系统。5.4 亿年之后的今天,对于人类,眼睛已成为我们最重要的传感器,超过一半的大脑都会参与视觉功能。

在地球生物向更高智慧水平进化的过程中,视觉真的是非常重要的推动力量。

这套如此神奇的感知系统,便是我今天想要讲的主题。这也是我们对机器的追求——让机器拥有人类这样的视觉智能。

从人类到机器视觉

下面,我讲一个小故事,关于人类视觉系统的令人惊叹之处。

在 1960 年代的好莱坞,诞生了一个非常有里程碑意义的历史电影《The Pawnbroker》(首部以幸存者角度表现二战中犹太人大屠杀的美国电影) 。随着这部电影诞生了一种全新的为电影插入视频剪辑的技术,导演 Sidney Lumet 对此做了个很有意思的实验——插入的画面需要显示多久才能让观众抓住内容。

他不断缩短画面播放的时间,从十几秒到几秒,最后到三分之一秒——他发现这是一个相当好的时长,足够观众看清楚并且充分理解画面。

心理学家和认识科学家们受此启发,开展了更进一步的实验:向参与者播放连续多帧画面,每帧的显示时间仅有  100 微秒。其中,仅有一幅画面里有一个人,要求参与者找出这个人。

而大家确实都能够找出来。这非常令人惊叹,只需 100 微秒,我们的视觉系统就能检测到从来没见过的人。

1996 年,神经心理学家 Simon J. Thorpe 在 《自然》发表了一项研究,通过脑电波观察人脑对复杂图像进行分类的速度。他发现,仅需 150 微秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。

后来,哈佛人体视觉学者 Jeremy Wolfe 在论文中写道,虽然很难去衡量一个人究竟看到了什么、对某个画面达到了什么程度的理解,但直觉告诉我们,画面中的物体应当是我们观察的对象之一。

看起来很显而易见,但这提醒我们,对物体的识别是视觉最基础的部分之一,计算机视觉也在这个领域攻关了许多年。从 2010 到 2017,ImageNet 挑战赛的目标识别(object recognition)错误率一直在下降。到 2015 年,错误率已经达到甚至低于人类水平。

我不会说目标识别是个已经攻克的领域。许多关键问题尚待研究,其中不少和机器人息息相关。比如 3D 轮廓理解,目标局部理解,对材料、纹理的理解等等。这些方面的研究非常活跃,我也感觉到做这些比组织 ImageNet 分类任务挑战赛更有意思。

后目标识别时代的计算机视觉

接下来,我想分享一些新的、探索性的工作,而不是列出识别对象清单(inventory list of objects)这样的基础研究。让我们回到 Jeremy Wolfe 的论文,他继续写道:“物体之间的关系,必须写进 gist。”

假设有两张图片:把一盒牛奶倒进玻璃杯;把一盒牛奶倒出来(倒在空中),旁边放着一只玻璃杯。两者不是一回事。两张图片中的物体都一样,但它们之间的关系不同。

仅凭图片的对象清单,无法完整传递其内容。下面是另一个例子:

两张照片都是人和羊驼,但是发生的事情完全不同。当然,过去在这方面也有不少研究,包括空间关系,行为关系,概率关系等等,就不一一阐述了。这些工作基本都在小型封闭环境中开发测试,探索的也不过十几、二十几种关系。而我们希望把视觉关系的研究推向更大的尺度。

我们的工作基于视觉表达和 leverage model 的结合,通过把图像空间的 embedding 以及关于对象关系的自然语言描述以巧妙的方式结合起来,避免了在对象和对象之间的关系做乘法带来的计算负担。

上图展示的便是可视化结果的质量。给定该照片,我们的算法能找出空间关系、比较关系、不对称空间关系、动词关系、行为关系以及介词关系。

更有意思的是,我们的算法能实现 zero-shot (零样本学习)对象关系识别。举个例子,用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片,一个人坐在消防栓上。虽然算法没见过这张图片,但能够表达出这是“一个人坐在消防栓上”。

类似的,算法能识别出“一匹马戴着帽子”,虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。当然,这个算法还很不完美。例如当两个类似的对象(如两个人)部分重叠在一起,算法就容易判断失误。如下图,算法错误得认为是左边的人在扔飞碟:

这是一个计算机视觉下面飞速发展的领域。在我们团队的 ECCV 2016 论文之后,今年有一大堆相关论文发表了出来,一些甚至已经接近了我们的模型效果。我非常欣喜能看到该领域繁荣起来。

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-30 10:21:07

李飞飞:为什么计算机视觉对机器人如此重要?的相关文章

李飞飞:物体识别之后,计算机视觉的进展、目标和前景何在?

9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日.上午,著名华人计算机视觉专家.斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告. 在报告中李飞飞与大家讨论了计算机视觉的目标:丰富场景理解,以及计算机视觉与语言结合和任务驱动的计算机视觉的进展和前景.场景理解和与语言结合的计算机视觉进一步搭起了人类和计算机之间沟通的桥梁,任务驱动的计算机视觉也会在机器人领域大放异彩.李飞飞介绍的自己团队工作也丰富多样.令人振奋. 2015年,李飞飞也在同一

李飞飞团队最新跨界研究:神经任务编程NTP,让机器人具有强大泛化能力

9月26日,在温哥华举行的IROS大会上,计算机视觉专家.斯坦福AI Lab&Vision Lab主任李飞飞做了"A Quest for Visual Intelligence"的演讲,这也是李飞飞首次参加IROS这一机器人为主题的大会.值得注意的是,近日雷锋网在Arxiv发现了一篇讲述新型机器人学习框架的论文<Neural Task Programming: Learning to Generalize Across Hierarchical Tasks>,该论文

李飞飞在 IJCV 吐露心声:崛起的亚洲 AI 力量伴我成长 | CVPR 2017

雷锋网(公众号:雷锋网) AI 科技评论按:在CVPR 2017期间,国际顶级计算机视觉期刊 IJCV 举办了 Asia Night 龙虾之夜学术主题活动,IJCV 首位华人主编汤晓鸥教授邀请到 CV 领域多名具有亚洲学术背景的著名教授学者. 华裔女科学家李飞飞就是当晚嘉宾之一,并大家分享了一些她对亚洲力量在人工智能时代的崛起的个人感受.李飞飞是斯坦福大学终身副教授.斯坦福大学人工智能实验室和斯坦福大学视觉实验室负责人.谷歌云首席科学家,更是外国华裔在人工智能界获得高成就的标志性人物. 雷锋网

李飞飞:我们怎么教计算机理解图片

前言:当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:"猫""书""椅子".现在,电脑也聪明得可以做同样的工作了.接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状--包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库--而关键性的要点还不止于此. 视频内容翻译: 我先来给你们看点东西. (视频)女孩:好吧,这是只猫,坐在床上.一个男孩摸着一头大象.那些人正准备登机.那是架

观点丨李飞飞:我们怎么教计算机理解图片

前言:当一个非常小的孩子看到图片时,她可以辨认出里面简单的要素:"猫""书""椅子".现在,电脑也聪明得可以做同样的工作了.接下来呢?在这个令人震撼的演讲里,计算机视觉专家李飞飞介绍了这一技术的发展现状--包括她的团队为了"教"计算机理解图片所建立的一千五百万照片的数据库--而关键性的要点还不止于此. 视频内容翻译: 我先来给你们看点东西. (视频)女孩:好吧,这是只猫,坐在床上.一个男孩摸着一头大象.那些人正准备登机.那是架

李飞飞北京演讲:AI会改变世界,改变AI的又会是谁?

雷锋网(公众号:雷锋网)按:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为<视觉智能的探索> (The  Quest  for  Visual  Intelligent)演讲.李飞飞教授分别从四个视角讲述了她眼里的AI,提到她加入谷歌后从事的几项工作,并致力于推动AI的多样性发展.雷锋网根据其现场演讲整理成本文,由宗仁和亚萌共同编辑. 大家下午好!我非常荣幸看到在这个历史性时刻,中国正在庆祝它在科学和创新领域的进步.今天我来到这边是作为人工智能的学术圈

当我们谈 AI 时到底在讨论什么?李飞飞、周志华、沈海寅是这样看的 | 未来论坛2017

本文讲的是当我们谈 AI 时到底在讨论什么?李飞飞.周志华.沈海寅是这样看的 | 未来论坛2017, 2017 年 10 月 28-29 日,一年一度的未来科学大奖颁奖典礼暨未来论坛年会在北京举办.雷锋网了解到,今年的大奖颁奖典礼上,将颁发 2017 年未来科学大奖"物质科学"奖."生命科学"奖,并首度颁发"数学与计算机科学"奖.同时,全球四十位具有影响力的I科学家将出席此次活动,也将奉上十四场专题研讨会,其涵盖的范围包括高效计算.脑科学.新能源

京东联手斯坦福 AI 实验室发布联合研究计划,Manning、李飞飞代表签约

美国当地时间11月27日,京东集团宣布与斯坦福人工智能实验室(Stanford AI Lab)发布AI联合研究计划(SAIL-JD AI Research Initiative),京东集团CTO张晨,CHO&GC隆雨,AI平台与研究部负责人周伯文.Y事业部负责人于永利等参与了签约仪式并参与酒会.  签约仪式:斯坦福大学Christopher Manning教授和李飞飞教授等出现在现场 据介绍,京东自今年5月开始与斯坦福人工智能实验室就AI领域的合作研究开始初步沟通,历经数次拜访与磋商,多个技术团

李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁

本文讲的是李飞飞最新演讲:视觉智慧是人类和计算机合作沟通的桥梁, 中国计算机学会 CCF 举办的中国计算机大会CNCC 2017已于10月26日在福州市海峡国际会展中心开幕.参加会议的人数众多,主会场座无虚席.雷锋网 AI 科技评论也派出记者团全程参与大会报道. 26日上午开幕式结束后,多位特邀嘉宾进行了现场演讲,主题涵盖计算机科学发展中的新技术和应用.自然语言利净额.AI如何服务于人.人工智能在信息平台的应用等等.斯坦福大学副教授.谷歌云首席科学家.机器学习界的标杆人物之一的李飞飞进行了题目为