复杂的中国驾驶场景,正是深度学习的优势

导读

深度学习十分适合高度复杂场景下的自动驾驶应用,尤其与增强学习相配合,能让从感知到执行的过程变得简单。

谷歌和李世石的人机大战引爆了公众对于人工智能的关注,也让基于深度学习的人工智能成为汽车业界关注的重点,那么深度学习在智能驾驶的应用场景下有什么帮助呢?

自动驾驶最先出现在美国,而不是欧洲或者日本,更不是中国,非常关键的一个原因在于,美国的驾驶环境相对于其它地区而言,是最简单的,无论是道路情况还是驾驶习惯。这就意味着,开发一个自动驾驶原型产品的技术难度可以大大降低。

这种高度复杂的场景很难用有限的规则来定义清楚,所以传统的算法的表现往往无法满足自动驾驶的要求,而深度学习非常适合在复杂场景下的自动驾驶应用。如果这个场景足够简单的话,深度学习并不能表现出相对于其它基于传统模式识别方法的优势。

更具体一点来讲,对于非结构化数据的识别、判断、分类是它的优势所在。图像、语音都是非结构化的,而像 Excel 表格上的数据,我们称之为结构化的数据。自动驾驶所面临的环境,如果表达出来,正是非结构化的数据,深度学习可以很好地处理这种场景。

◆ ◆ ◆

深度学习的前沿技术

深度学习的发展其实有很长的历史,它的原理从上世纪五十年代末期就已经出,80 年代在手写体数字的识别方面取得相当的成就,并应用于美国的邮政系统。但其真正崛起还是在十年前开始的。

这里面其实是有时代的大背景的因素,这个时代提供了深度学习两个最关键的助推引擎:大数据和高性能处理器。深度学习非常适合利用大数据提高性能,随着用于训练的数据量不断增加,深度学习的性能也得到持续的提升。

事实上到目前为止,我们还没有发现其性能提升的上限。这是深度学习目前受到关注的一个非常重要的原因。过去很难获得如此大量的数据,也缺乏足够强劲的计算平台,而今天随着物联网的发展,据获取已经不再是问 题。另一方面,着单个处理器的性能进入 TFLOPS 时代,深度学习所需要海量计算已经在经济上变得可承受了。谷歌的 AlphaGo 的计算能力是当年击败国际象棋冠军的 IBM 深蓝的三万倍。要知道当年的深蓝可是大型机,成本不是一般应用可以承受的。

从 2012 年 Hinton 和他的学生 Alex 在国际上权威的图像识别领域 Imagenet 比赛夺冠以来,深度学习目前已经可以达到 97%的识别准确率,超过普通人的 95% 的识别准确率。机器视觉的识别能力超过人类,这是人工智能领域了不起的成就, 而这一切在仅仅 4 年的时间内就实现,则更凸显了深度学习的潜力和业界的研究 热潮。深度学习还在持续扩展其潜力,在人脸识别方面的准确率可达 99.5%以 上(基于 LFW 数据库)。

很多人也会问,到底深度学习是一个什么样的东西?要用简单的话解释清楚其实是一件很有挑战性的事情,它涉及很多较为抽象的基础知识,比较形象地描述:深度学习其实是对人的大脑识别机制的模拟。

举个例子,我看到对面走来一个人,瞬间就可以判断出这个人是我的同事。眼睛获取的影像有几十万像素, 需要上百万字节去描述,而大脑经过处理后,可以将它简化为几个字节,就是同事的名字。人的大脑可以非常高效地处理海量的非结构化数据,把其中的内容识别出来,用极其精简的信息去描述。这也正是深度学习的本质——把复杂信息精简地表达出来。

技术化的描述是:基于数据驱动的、自动学习要建模的数据的潜在(隐含)分布的多层(复杂)表达的算法。目前深度学习使用最多的建模技术是多层卷积神经网络,并建立大量的隐含层(可达上百层)。

这个技术出现已经很久了,但在此之前一直表现不好,那个时候大家都是在小规模样本下进行的,对于参数的调整非常困难。深度学习一个最大的突破就是,将参数的计算自动化,人不再进行干预,而是让它通过大量的数据学习,自己确定这个参数。

深度学习的技术也在快速演进,比如 LSTM(长短期记忆模型)的使用,赋予深度神经网络保存状态的能力。也就是,我们将赋予机器记忆的能力。

它的用途在哪里呢?拿玩游戏来说。比如射击类的游戏,目前基于深度学习和增强学习的人工智能系统可以有非常出色的表现,因为它不需要记住过去的游戏状态,而当机器玩一些策略类游戏 的时候,比如星际争霸,没有记忆能力导致它无法进行长时间跨度的策略规划,与人的表现就相差甚远。

LSTM 使得深度神经网络从一个二维空间网络变成了一 个时空结构的网络,即在时间尺度上也表现出深度,结果就是机器不需要从头开始认知,而是把过去和现在连接在一起,规划下一步的行动。显然,这让大型的策略类游戏成为机器的下一个征服目标。上周传出消息 AlphaGo 要在今年内对战柯洁,期待一下 AlphaGo 的下一次惊艳出场吧。

深度学习的注意力模型也是一个技术热点,它是对整个场景进行语义级别的理解,可以让机器锁定图像中我们需要关注的部分。在未来几年,这些技术可以让机器理解视频流,并将其转化为直接的语义述。这么说吧,结合上面的技术,机器可以跟你一起看电影,并分享对于电影的理解(单身狗的福利呀,一个人去电影院也不会感到寂寞了,只要带着你的机器宠物一起去) 。

总体来讲,具备深度学习能力的设备就好像是一个有生命力的机器,它会随着数据训练的过程逐步成长,它的本领是可以持续提高的,而且这种本领可以被复制到另一个设备中。

◆ ◆ ◆

深度学习与增强学习双管齐下通往自动驾驶

深度学习对感知有非常强的能力,可以理解各种复杂图像的含义,但是它并不能把这种感知转化为决策能力。增强学习就是用来解决这个问题。

如果打个比方的话,增强学习借鉴了驯兽员的方法,不教动物们任何规则(当然也教不会呀), 一开始让动物们随便地做各种动作。当其中有一个动作是符合期望的时候,立即给它们好吃的,就是增强了它们继续这个动作的动力。随着训练时间和次数的增加,动物们就会真的在头脑里建立一个规则:做某个动作可以得到好吃的。因而,将其称之为「增强(reinforcement)」学习的原因。

某种意义上,这也借鉴了管理学上的结果导向的理念,有两个关键点:第一,只看重结果,不关心过程或者动机;第二,对于每一次行动,及时奖惩,强化认知。

自动驾驶的整个系统,一般来说由三个层级组成:感知层、规划决策层和控制执行层。深度学习和增强学习结合的结果,会使得感知和执行以前所未有地方式真正紧密地结合在一起,完成自动驾驶。

1.感知

感知层的任务是完成环境态势感知,这个是自动驾驶的核心环节。在自动驾驶中,任何执行动作都要以理解整个驾驶环境为前提。这里面分为两层:车外环境和车内环境。

对于车外环境,首先是多种传感器的输入,比如多摄像头、毫米波雷达以及激光雷达等,通过融合映射到一个统一的坐标系中,这些图像信息需要进行物体的识别和分类,比如车道、路肩、车辆、行人等等,这正是深度学习的优势。利用深度学习,在计算系统中重构出来一个 3D 环境,这个环境中的各个物体都会被识别并理解。

对于车内环境,是指对车内驾驶员的感知,包括其疲劳程度、驾驶意图等,这将给后面的决策控制提供决策基础信息,如疲劳检测系统在检测到驾驶员进入严重的疲劳状态后,自动将驾驶状态从人工操控转为自动驾驶。

2.局部路径规划

这里需要对整个车外环境中车辆、交通状况和行人等的意图或者在一段时间内的行为进行预测,再根据本车的状态和意图,结合前面的环境感知结果和高精度地图提供的道路信息等,规划出最佳的行驶路径,这个规划需要可以满足驾驶意图,并对周围的车辆友好、安全。

通过积累大量的数据进行足够的训练,基于深度学习的系统可以给出最优规划。当然,这种规划不能单纯依赖深度学习的预判,它必须和交通规则的专家系统,以及其它高可靠性手段结合,才可以达到实用。例如 V2X 的普及,会使得本车可以在超视距范围内,精确地获取周围车辆的位置、速度以及驾驶意图(转弯/变道)等。

3.决策控制

在路径规划确定后,自动驾驶系统需要进行本车意图决策,比如什么时候进行超车、什么时候转弯、选择什么时机进行变道是最优的等等。自动驾驶系统需要学习人类开车的习惯,学会如何在复杂的会车场景下进行操作、保持合理的车距等,更进一步地,学习主人的开车习惯,在满足安全性的前提下,尽量使自动驾驶的风格与其开车行为相适应,提供更好的用户体验,并优化自己的驾驶效率。很显然,这里增强学习是非常适合的技术。

目前,前沿的研究人员正利用深度学习和增强学习开展一些非常炫酷的功能,例如完成从原始传感器数据到实际动作执行器的直接过渡。

在今年的 CES 展上,丰田展示了一套类似的自动驾驶演示系统,在一块布有障碍并有指示方向的方形地形中,8 辆没有驾驶经验的模型车,将传感器监测到的环境信息输入深度学习系统,并将深度学习系统与油门、制动和方向输出连接。经历约 4 个小时的学习后, 基本实现了零事故。

自动驾驶的测试是一个非常耗时、费钱的工作,谷歌累计的自动驾驶实际道路测试里程已经超过 100 万英里,如何更高效地测试也是自动驾驶领域的一个关键问题。

从理论上讲,我们可以用计算系统去模拟实际道路的情形,如果我们可以对道路上的各个要素进行准确地建模, 并且模拟这些要素的行为,例如超车、刹车、变道。利用蒙特卡洛模拟,配合增强学习的技术,就能构建一个自主运行的系统。这个系统本身在不需要耗费一滴汽油的情况下,产生大量的模拟场景,发现自动驾驶原型的各种缺陷,并获得大量的数据。就像谷歌训练它的 AlphaGo 一样。

◆ ◆ ◆

小结

去年 10 月,丰田宣布投入 10 亿美元,设立一家专注于研发人工智能的新公司 Toyota Research Institute,希望打造像人类一样会自己「思考」的、可以应对突发情况的汽车, 让自动驾驶技术更加可靠。

去年年底,丰田还投资了 Preferred Networks,另外一家深度学习领域的初创公司,通用则直接收购了初创公司 Cruise Automation,只要看名字你就知道这家公司是干什么的。

真金白银的投入,其背后折射出的是车厂对于深度学习技术的认可。奥迪在 2015 年首次在美国从硅谷自动驾驶至拉斯维加斯测试其基于 A7 的自动驾驶汽车时,就明确表示:“自动驾驶的关键是深度学习”。

原文发布时间为:2016-06-09

时间: 2024-08-01 11:36:36

复杂的中国驾驶场景,正是深度学习的优势的相关文章

中国人工智能学会通讯——深度学习与视觉计算 1.1 视觉大数据

摘要:首先阐述什么是视觉大数据,以及视觉大数据分析需要解决的关键问题:然后介绍 了深度学习的发展背景,并简要回顾了深度学习在计算机视觉领域的发展历史:最后介绍 了深度学习在视觉计算中的一些工作,并讨论了未来潜在的研究方向. 1.1 视觉大数据 人类感知外部世界的时候,约有 70% 以上的外界信息是由视觉系统所接收和处 理的.因此,对于视觉信息的有效处理与 理解是非常重要的. 我们知道,从第一台光学成像设备产生 的那一刻开始,人们就在不断地改进成像 系统,希望能够更加真实地记录客观世界, 留下往日

中国人工智能学会通讯——深度学习在自然语言处理领域的最新进展

下面我来介绍一下深度学习在自然语言处理(NLP)的最新进展.我主要想针对机器翻译.聊天机器人和阅读理解这三个最活跃的方向来探讨深度学习在NLP领域的发展到了什么水平,还存在什么问题,然后再引申出未来的研究方向. 上图是自然语言处理主要技术的一览图.从左开始,第一列是自然语言的基本技术,包括词汇级.短语级.句子级和篇章级的表示,比如词的多维向量表示(word embedding).句子的多维向量表示,还有就是分词.词性标记.句法分析和篇章分析.第二列和第三列是自然语言的核心技术,包括机器翻译.提问

IROS数据分析:中国论文第四 深度学习不敌路径规划

加拿大温哥华当地时间晚上7点,IROS 2017在温哥华会展中心的大演播厅(Ballroom B,C&D)举行晚宴,招待来参加IROS 2017的付费参会者们.一直以来,参会者购买的门票收入都是大会收入的重要来源,占到了大会总收入的80%以上,借此宴会,IROS也希望能更好地与会员及社区成员交流,成为揭示最新研究动态的风向标. 在今天晚上的晚宴上,大会方公布了几个有意思的数据,雷锋网总结如下: 中国收录论文排名第四 本次IROS大会共收到2164篇论文投稿,最终收录970篇,录取率44.8%.在

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——深度学习的迁移模型 三、三种不同的迁移方法

三.三种不同的迁移方法 将这些概念加起来,就可以总结出三个不同的迁移方法 1.基于差异的方法 在哪里做迁移的转换.自适应.可以在某个层次来做,也可以在多个层次来做,如何来衡量两个领域之间的距离,可以用先验的这种概率.模型,也可以用联合概率.模型:另外还可以将源领域的信息加进来,建立一个更准确的Loss.这都是图像领域获得的知识,那自然语言会不会有类似的方式? 下面一篇描述NLP的文章也证明了这一点,假设我们把自然语言的深度处理分成三个层次,即E.H.O,如果我们锁定不变,而其他的层次有可能变化,

中国人工智能学会通讯——深度学习与推荐系统 3 总结与展望

3 总结与展望 本文中简要介绍了推荐系统的核心技术,以及关于深度学习在推荐系统上的最新进展.可以看到,目前深度模型在推荐系统上的应用还处于比较初级的阶段[28],尤其是技术上的发展较慢于计算机视觉和自然语言处理领域.关于未来工作有如下三点展望. (1)在线学习与增量学习.在实际产品中,用户数据实时到达,为了更好地提供服务,推荐系统模型需要能够实时.有效地刷新推荐列表,这对模型的在线学习和增量学习带来挑战.现有的工作主要考虑矩阵分解等浅层模型的在线学习[13,16],对于深度模型的研究较为稀疏.

中国人工智能学会通讯——深度学习与视觉计算 1.2 深度学习在计算机视觉领域的应用

1.2 深度学习在计算机视觉领域的应用 深度学习近几年成为国际上非常流行 的重要的数据分析工具,在我们视觉计算 领域也得到了广泛应用.对于传统的视觉 信息处理而言,一般首先要做特征提取: 然后利用特征进行模型学习,比如分类等. 在这个过程中,涉及到模式识别研究中两 个经典的问题,即特征的提取与表示和模 型的学习. 传统算法通常利用经验知识来手工设 置视觉特征,缺少与环境的信息交互以及知 识库的决策支持.举个例子,给定一幅图 像,我们希望知道这幅图像的目标类别(比 如斑马).按照传统的视觉模式分析

中国人工智能学会通讯——深度学习的迁移模型 二、如何实现迁移学习 : 深度学习 + 迁移学习

二.如何实现迁移学习 : 深度学习 + 迁移学习 今天我讲的是如何实现迁移学习中的一个方面.从单层次来看一个东西,把一个领域里的模型和知识通过层次分解,就好比杭州有雷锋塔,我们可以从一个古典的建筑发展到像雷锋塔这样有层次的建筑,一层一层分析,深度学习恰恰为我们提供了分层和层次. 下面我就仔细地描述一下.深度学习如果是从左到右.从输入到输出的变化过程,中间是有很多非线性的转化,我们可以忽略不计.但是这些层次我们要迁移到新的领域,知识的迁移就相当于参数的迁移,这些参数就是权重. 这里我们看知识到底有

中国人工智能学会通讯——深度学习与推荐系统 2 深度学习在推荐系统的应用

2 深度学习在推荐系统的应用 深度学习指代多层级的人工神经网络,近年来在语音识别.计算机视觉和自然语言处理等领域取得了巨大成功[32].根据深度学习技术在推荐系统中的应用方式,将相关工作大体分为两类:①作为一种基于数据的表征学习的方法,深度学习技术可以从语义较为丰富的输入数据(如语音.图片.文本等)中抽取出有效的特征表示,以方便下游应用,如检索和推荐等[11,14,17,33-40 ]:②作为一种通用的数据建模方法,深度学习对数据进行多层非线性变换,可以拟合出较为复杂的预测函数.推荐系统中的核心