有没有将深度学习融入机器人领域的尝试?有哪些难点?

现在深度学习这么火,大家都会想着看看能不能用到自己的研究领域里。所以,将深度学习融入到机器人领域的尝试也是有的。我就自己了解的两个方面(视觉与规划)来简单介绍一下吧。

物体识别

这个其实是最容易想到的方向了,比较DL就是因为图像识别上的成果而开始火起来的。

这里可以直接把原来 CNN 的那几套网络搬过来用,具体工作就不说了,我之前在另一个回答amazon picking challenge(APC)2016中识别和运动规划的主流算法是什么?下有提到,2016年的『亚马逊抓取大赛』中,很多队伍都采用了DL作为物体识别算法。

物体定位

当然,机器视觉跟计算机视觉有点区别。机器人领域的视觉除了物体识别还包括物体定位(为了要操作物体,需要知道物体的位姿)。

2016年APC中,虽然很多人采用DL进行物体识别,但在物体定位方面都还是使用比较简单、或者传统的算法。似乎并未广泛采用DL。

当然,这一块也不是没人在做。我们实验室的张博士也是在做这方面尝试。我这里简单介绍一下张博士之前调研的一偏论文的工作。

Doumanoglou, Andreas, et al. "Recovering 6d object pose and predicting next-best-view in the crowd."Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

这个工作大概是这样的:对于一个物体,取很多小块RGB-D数据;每小块有一个坐标(相对于物体坐标系);然后,首先用一个自编码器对数据进行降维;之后,用将降维后的特征用于训练Hough Forest。

这样,在实际物体检测的时候,我就可以通过在物体表面采样RGB-D数据,之后,估计出一个位姿。

抓取姿态生成

这个之前在另一个问题(传统的RCNN可以大致框出定位物体在图片中的位置,但是如何将这个图片中的位置转化为物理世界的位置?)下有介绍过,放两个图

↑ Using Geometry to Detect Grasp Poses in 3DPoint Clouds

↑ High precision grasp pose detection in dense clutter

控制/规划

这一块是我现在感兴趣的地方。

简单地说,我们知道强化学习可以用来做移动机器人的路径规划。所以,理论上将,结合DL的Function Approximation 与 Policy Gradient,是有可能用来做控制或规划的。当然,现在的几个工作离取代原来的传统方法还有很长的距离要走,但是也是很有趣的尝试。

放几个工作,具体可以看他们的paper。

1.Learning monocular reactive uav control in cluttered natural environments

↑ CMU 无人机穿越森林

2. From Perception to Decision: A Data-driven Approach to End-to-end Motion Planning for Autonomous Ground Robots

↑ ETH 室内导航

3.Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection

↑ DeepMind 物体抓取

4. End-to-end training of deep visuomotor policies

↑ Berkeley 拧瓶盖等任务

有哪些难点

1、在视觉领域,除了物体识别、还需要进行物体定位。这是一个 regression 问题,但是目前来看, regression 的精度还没办法直接用于物体操作,(可能是数据量还不够,或者说现在还没找到合适的网络结构),所以一般还需要采用ICP等算法进行最后一步匹配迭代。

2、机器人规划/控制等方面,可能存在的问题就比较多了。我之前在雷锋网(公众号:雷锋网)『硬创公开课』直播(运动规划 | 视频篇)的时候有提到我碰到的一些问题,这里简单列在下面:

可观性问题

简单地说,我们这些不做DL理论的人,都是先默认DL的收敛、泛化能力是足够的。我们应该关心的是,要给DL喂什么数据。也就是说,在DL能力足够强的前提下,哪些数据才能让我需要解决的问题变得可观。

当然,目前的几个工作都没有提到这点,Berkeley的那个论文里是直接做了一个强假设:在给定数据(当前图像、机器人关节状态)下,状态是可观的。

实际机器人操作中,系统状态可能跟环境有关(例如物体性质),所以这一个问题应该是未来DL用在机器人上所不能绕过的一个问题。

数据量

一方面,我们不了解需要多少数据才能让问题收敛。另一方面,实际机器人进行一次操作需要耗费时间、可能会造成损害、会破坏实验条件(需要人工恢复)等,采集数据会比图像识别、语音识别难度大很多。

是否可解决

直播的时候我举了个例子,黑色障碍物位置从左到右连续变化的时候,规划算法输出的最短路径会发生突变。(具体看视频可能会比较清楚)

这对应于DL中,就是网络输入连续变化、但输出则会在某一瞬间突变。而且,最短路径可能存在多解等问题。

DL的 Function Approximattion 是否能很好地处理这一状况?

是吧,这几件事想想都很有趣,大家跟我一起入坑吧~

本文作者:qqfly

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-28 00:25:34

有没有将深度学习融入机器人领域的尝试?有哪些难点?的相关文章

RSS 2016研讨会随想:质疑者是正确的吗——深度学习在机器人领域的局限和潜力都在哪里?

导语:RSS(Robotics: Science and Systems,机器人:科学与系统) 是机器人领域的世界顶级学术会议. John McCormac是伦敦帝国学院戴森机器人实验室(Dyson Robotics Lab at Imperial)的一名博士生,师从Andy Davison教授和Stefan Leutenegger博士.2016年6月,McCormac参加了在密歇根大学召开的RSS 2016大会,他在博客中分享参会的一些心得体会,以下为McCormac博客中的部分编译内容,读者

深度学习在推荐领域的应用:Lookalike 算法

本文主人公 英特 是一名传统的软件工程师,让我们与英特一起来研究如何实现自己的Lookalike算法,并尝试着在新浪微博上应用这一算法. 当2012 年Facebook 在广告领域开始应用定制化受众(Facebook CustomAudiences)功能后,受众发现这个概念真正得到大规模应用.什么是受众发现?如果你的企业已经积累了一定的客户,无论这些客户是否关注你或者是否和你在Facebook 上有互动,你都能通过Facebook 的广告系统触达到.受众发现实现了什么功能?在没有这个系统之前,广

中国人工智能学会通讯——深度学习与视觉计算 1.2 深度学习在计算机视觉领域的应用

1.2 深度学习在计算机视觉领域的应用 深度学习近几年成为国际上非常流行 的重要的数据分析工具,在我们视觉计算 领域也得到了广泛应用.对于传统的视觉 信息处理而言,一般首先要做特征提取: 然后利用特征进行模型学习,比如分类等. 在这个过程中,涉及到模式识别研究中两 个经典的问题,即特征的提取与表示和模 型的学习. 传统算法通常利用经验知识来手工设 置视觉特征,缺少与环境的信息交互以及知 识库的决策支持.举个例子,给定一幅图 像,我们希望知道这幅图像的目标类别(比 如斑马).按照传统的视觉模式分析

运用深度学习教机器人理解自然语言

雷锋网按:本文作者Jonathan是21CT的首席科学家.他主要研究机器学习和人工智能如何使用在文本和知识中让计算机变得更智能.他在德克萨斯农工大学获得心理学学士学位和工商管理硕士,在德克萨斯大学获得计算机博士学位.译者/赵屹华 审校/刘帝伟.朱正贵 责编/周建丁. 在深度学习出现之前,文字所包含的意思是通过人为设计的符号和结构传达给计算机的.本文讨论了深度学习如何用向量来表示语义,如何更灵活地表示向量,如何用向量编码的语义去完成翻译,以及有待改进的地方. 在深度学习出现之前,我们书写的文字所包

许多深度学习领域的公司根本就没有商业化的产品

无聊的GMIC大会完了,给我留下深刻印象的,是出门问问的李志飞用湖南普通话做的演讲,主题是人工智能. 他列出了近一年里各大科技公司在深度学习和机器人领域的频繁收购,许多深度学习领域的公司根本就没有商业化的产品,主页除了公司名字就是一片黑,全公司算得上成型成果的可能就是一篇尚未发布的论文,商业化就别谈了. 曾经Android的缔造者Rubin也是在退隐后主导了一连串的机器人创业公司收购,一个月里曝光了8家. 人工智能这个概念自上世纪中期提出以来,曾经经历过不少低谷,但是随着新世纪的到来,人工智能研

中国人工智能学会通讯——深度学习在自然语言处理领域的最新进展

下面我来介绍一下深度学习在自然语言处理(NLP)的最新进展.我主要想针对机器翻译.聊天机器人和阅读理解这三个最活跃的方向来探讨深度学习在NLP领域的发展到了什么水平,还存在什么问题,然后再引申出未来的研究方向. 上图是自然语言处理主要技术的一览图.从左开始,第一列是自然语言的基本技术,包括词汇级.短语级.句子级和篇章级的表示,比如词的多维向量表示(word embedding).句子的多维向量表示,还有就是分词.词性标记.句法分析和篇章分析.第二列和第三列是自然语言的核心技术,包括机器翻译.提问

人工智能在深度学习领域的前世今生

雷锋网(公众号:雷锋网)按:本文作者兰彻, 文章详细介绍了1)人工智能发展的七个重要阶段:2)深度学习在人工智能的发展:3)最后也提出作者对于深度学习挑战和未来发展的看法. 这两年人工智能热闹非凡,不仅科技巨头发力AI取得技术与产品的突破,还有众多初创企业获得风险资本的青睐,几乎每周都可以看到相关领域初创公司获得投资的报道,而最近的一次春雷毫无疑问是Google旗下Deepmind开发的人工智能AlphaGo与南韩李世石的围棋之战,AiphaGo大比分的获胜让人们对AI刮目相看的同时也引发了对A

深度学习在图像取证领域中的进展

雷锋网按:本文作者杨朋朋,就读于北京交通大学,信号与信息处理专业博士生二年级,导师倪蓉蓉教授.研究兴趣包括多媒体取证.隐写分析,深度学习.所在团队为教育部创新团队和科技部重点领域创新团队,负责人为赵耀教授. 图像取证 在当今飞速发展的信息时代,数字图像已经渗透到社会生活的每一个角落,数字图像的广泛使用也促进了数字图像编辑软件的开发与应用,例如:Adobe Photoshop.CorelDRAW.美图秀秀等等.利用这些编辑工具,用户可以随意对图像进行修改,从而达到更好的视觉效果.然而,在方便了用户

集智科学家张江解析:为什么复杂性需要深度学习?

雷锋网(公众号:雷锋网)按:本文来自北京集智俱乐部.作者张江,北京师范大学系统科学学院副教授,集智俱乐部创始人.现任主席.集智科学家,腾讯公司腾云智库成员. 尽管复杂性科学一直在追求一大类终极问题的答案,如生命的起源.复杂性的起源等.但其实它的发展完全是研究方法驱动的.例如在计算机出现之前,人们是用哲学思辨和数学方程来研究复杂系统:到了90年代,圣塔菲学派兴起,多主体仿真.复杂自适应系统方法席卷了各个研究领域:2000年以后,复杂网络崛起,小世界和无标度以及各式各样的网络分析渗透到了复杂性研究的