如何用超大规模真实驾驶视频数据集做端到端自动驾驶

本文讲的是如何用超大规模真实驾驶视频数据集做端到端自动驾驶,


自动驾驶是人工智能落地的重要应用之一,许多业界公司和学校实验室都在以自己的方法研究自动驾驶系统。本次雷锋网 AI 科技评论请到了许华哲博士介绍他们团队研究的端到端自动驾驶系统。

许华哲是UC Berkeley 博士,师从 Prof. Trevor Darrell。对计算机视觉、自动驾驶、强化学习感兴趣。本科毕业于清华大学电子工程系。

这次分享主要基于徐华哲和他的同学们发表的CVPR2017的收录文章「End-to-end Learning of Driving Models from Large-scale Video Datasets」,这是对端到端自动驾驶的一个尝试。除了文章本身,许华哲也会介绍学术角度上自动驾驶领域中有意思的任务和问题。

分享的内容包括:

  • 自动驾驶的前世今生
  • 许华哲他们发表的超大规模数据集
  • 为了解决自动驾驶问题,如何用数学公式定义它
  • 论文中构建的FCN-LSTM模型
  • 论文中用到的新技巧“Learning with privileged information”,以及实验结果

自动驾驶主要分为这样几类:基于规则的自动驾驶系统,端到端的自动驾驶系统(输出直接是对车的操作),综合性方法(Intermediate,决策系统的输入是前处理系统的输出)。最后还有一个研究方向是对未来会发生的事情做预测以便规避风险。

图中是基于规则的自动驾驶系统的经典工作,检测出路上的车和车道,然后进行决策。

基于规则的系统,好处是在工业界得到了广泛使用,比如GoogleX的自动驾驶就是以基于规则的系统为主;以及系统的可解释性非常强。不好之处是难以应对不确定的情况,以及在复杂的情况下无法对所有可能的操作进行建模。

完全端到端的方法中早期的典型工作是ALVINN,浅层神经网络的结果已经表明端到端学习有形成自动驾驶系统的潜力。

Yann LeCun提出的DAVE已经可以回避路上的障碍物。

在2017年10月最新的文章中,已经可以通过高阶的运动意图对低阶的实际驾驶操作进行条件(conditioned)控制,在许华哲看来已经是水平最领先的文章。

不过话说回来,这个领域影响最大的还是NVIDIA的这篇文章,第一次借助三个摄像头用端到端的方法开起了真车。

端到端驾驶的好处是,模型可以直接对图像输入作出回应,不需要人类干预;坏处是,系统对于不同的车辆系统需要逐一校准,以及解释性差

这项综合自动驾驶系统的典型方法中,用深度学习方法学到一系列行驶中的路况信息,然后把这些路况信息输入决策模型;决策模型中则可以再设定一些规则。

这种方法的解释性介于端到端和基于规则的系统之间,但还是需要人工定义许多规则,仍然有“无法完全定义系统规则”的问题

未来视频预测的目的是帮助训练自动驾驶系统,效果还有很多提升的空间,但是许华哲认为与现阶段各大自动驾驶平台的自动驾驶模拟器相比,这方面研究的意义还有待讨论。

接下来,值得聊的话题是数据集。大家都知道ImageNet对深度学习领域有着深远的影响,因为它提供了检验算法的绝佳条件。

从近年的错误率显著下降来看,大家都认为图像分类问题是一个近乎于解决了的问题,ImageNet就在其中起到了非常大的贡献。

那么,许华哲认为自动驾驶领域也需要一个起到同样作用的数据集,它应当由众包得到,应当是真实的、足够难的、有一个明确的任务目标

对于任务目标,他们把它公式化为了一个预测车辆未来位置的问题。

这样做的好处是,泛化性强,可以运用于对任意的车辆,也可以用未经过校准的数据;他们的模型是可以端到端训练的;同时模型可以一次预测多个方向

模型中要预测的egomotion用方向角α和位移s描述,这样也就不需要直接对车辆内的方向盘和踏板进行控制,简化了系统的前期研究。

模型的数学定义如上图,评估给定的状态s和动作a的得分,其中s包括视觉信息和车辆的当前状态;a可以是分离的几个状态,也可以是连续的数值输出;最精确的是输出6个自由度上的运动

下一个问题就是如何评估这个模型。借助数据集的话,借助语言模型里perplexity预测的思路,把过去的状态作为序列,预测序列中的下一个元素

在他们的数据集之前,大家比较熟悉几个数据集包括KITTI、Cityscape、英特尔的GTA。

KITTI的特点是数据量比较小,但图像质量高,数据种类丰富,横向很宽

Torcs是在游戏里采的数据

Cityscape是一个高质量的图像语意分割数据集,但是并没有放出对应的视频

英特尔的GTA数据集也是以语意分割为主,虽然基于虚拟的游戏环境但是很逼真,可以看作最接近真实世界的游戏

几个数据集做对比的话,场景的丰富程度上KITTI力压所有数据集,其余更多方面则都有缺失

时长方面,Oxford的最长,围绕城市采了200小时数据。

这几个数据集都不算令人满意。为了大幅度提升时长和丰富程度,许华哲他们想到了众包的方法,与Uber合作,采集、使用了司机视角的视频。这个数据集的特点是基于真实世界的、第一人称视角,从右侧样例里可以看到内容也非常丰富。

最重要的是,这个数据集也是足够长的,比现存的任何数据集都要多出2个数量级。

这样对比下来,他们的数据集BDD-V就全面领先于其它的数据集

BDD-V数据集更多的指标如上图,30fps/720p,包括了惯性传感器IMU、陀螺仪Gyroscope、GPS和指南针的数据,而且是全面开放的。许华哲还偷偷透露,除了这个视频数据集,他们还会同步发布其它用于驾驶任务的高质量、大规模数据集。

这里正式介绍文章中的内容,一张图像输入到模型中后,模型要判断车如何行驶,最后输出中绿色部分表示可能的动作的概率分布(离散或者连续)。

论文中使用的模型结构是Dilated Fully Convolutional Networks+LSTM+Segmentation Loss。FCN用来保留空间信息,LSTM对之前时间中的信息加以利用,Segmentation语义分割则是为了把车辆从背景中分离出来(这部分属于Privileged Learning,等下还会讲到)。

上图显示的是预测离散的车辆动作(也就是前后左右)的结果,G代表ground truth,P代表预测的结果。

对于红绿灯也作出了合理的预测结果(黄灯时前进和停止一半一半,红灯时预测结果都是停止)

对于预测连续的车辆动作,沿着路的时候能判断出“不能右转”,到了路口就有了更多方向的选择

在连续预测中,有个重要问题是能否预测多个模态。可以看到,到了路口时预测结果明显分为了两个部分。

这里,为了更好地展示模型学到的特征,徐华哲从模型中抽出了conv-4层学到的特征。对于右侧的街道图,左侧是模型注意力的heat-map;两图并不是完全对齐的。可以看到,行车线、红绿灯、骑车的人和汽车(表现为两个车轮)都获得了很高的注意力。

Privileged Learning是指,模型一边预测未来的运动,一边训练一个语义分割网络,然后用语义分割网络更好地帮助模型做运动预测。P1、P2是Baseline,P3是带有Privileged Learning之后的结果,对图中这样“半辆车”的情况有更好的识别能力。

总结整篇论文

  • 首先介绍了一个不依赖执行机构的自动驾驶通用模型
  • 收集、公开了最大、最丰富的基于真实世界的数据集
  • 提出了新的网络架构,能够输出多模态行为
  • 确认了Privileged Learning方法的有效性,进一步提升了预测效果
  • 第一个长度可以和人类一生开车时间相比的训练数据集

数据、模型和代码可以在 https://github.com/gy20073/BDD_Driving_Model 看到。

未来他们也还会继续采集、扩充数据集。目前总长度(最下方)大概是一个人一生开车时间的一半,未来希望扩充到10万个小时。

同时他们也在改进模型,并在测试场地上把真车开起来。 秋天时他们也会再发一两篇文章。

徐华哲最后还解答了几个在线观众提出的问题。






本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-11-04 00:57:18

如何用超大规模真实驾驶视频数据集做端到端自动驾驶的相关文章

全网唯一完整译文 | Waymo无人车报告:通往自动驾驶之路

前不久,Waymo(前Google自动驾驶项目)向美国交通部提交了一份43页的安全报告,这份报告详细说明了Waymo如何装备和训练自动驾驶车辆,从而避免驾驶中的一般和意外情况发生.这份报告是Waymo以第一视角,对自己自动驾驶技术的最完整解读. 据雷锋网了解,Waymo可能最快今年11月上线自动驾驶打车服务.在自动驾驶走向商业化之际,Waymo的这份报告不仅是对自己八年开发的总结,也彰显了它对自己及新技术的信心.或许我们将迎来一个自动驾驶的新世界,这份报告则是一个起点. 以下是Waymo报告完整

权威发布:中国人工智能学会自动驾驶入门秘籍

10月12日,中国人工智能学会发布中国人工智能系列白皮书,雷锋网作为邀请媒体见证了白皮书的发布.本文将对<中国人工智能系列白皮书--智能驾驶>进行介绍和精编. 智能汽车是新一轮科技革命背景下的新兴技术,集中运用了现代传感技术.信息与通信技术.自动控制技术.计算机技术和人工智能等技术,代表着未来汽车技术的战略制高点,是汽车产业转型升级的关键,也是目前世界公认的发展方向. 智能汽车在减少交通事故.缓解交通拥堵.提高道路及车辆利用率等方面具有巨大潜能.在此大背景下,中国人工智能学会出台<中国人

Argo.AI CEO 撰文自述:DARPA 挑战赛十年,自动驾驶还面临哪些挑战?

雷锋网(公众号:雷锋网)·新智驾按:如果没有福特 10 亿美元的大手笔投资,刚刚创办 1 年的 Argo.AI 可能不会在这么短时间内被行业熟知,并与 Waymo.Uber.Cruise 等公司并排出现在公众视野里.不止如此,在将 10 亿美元的投资陆续打入 Argo.AI 户头的同时,福特更将其近百位工程师团队全部投向了 Argo.面对摩拳擦掌的竞争对手们,某种程度上,可以说,福特要在 2021 年落地自动驾驶打车服务,宝基本都押在了这个 200 来人的团队上. Argo.AI 正在研发的是

梅赛德斯-奔驰:地理信息对实现自动驾驶有多重要?

雷锋网按:本文是梅赛德斯-奔驰中国研究发展中心驾驶辅助与底盘系统经理王天一在第 6 届湖北武汉国际智能网联汽车发展高峰论坛的分享.本文由雷锋网(公众号:雷锋网)整理与编辑. 从二级自动驾驶到三级所需要克服的挑战 对传统车厂而言,一级或二级自动驾驶,实际上叫做驾驶辅助,能处理单一路况,比如夜视.全景.紧急制动或者车道保持等等.Level 3 则是业内常说的「在有条件的情况下自动驾驶.」 从 Level 2 到 Level 3,实际上是驾驶员在这种条件下不需要在整个驾驶环路中做任何事情.那么,从 L

时间诚可贵,所以自动驾驶价更高

这是一个效率至上的数字化时代,一个以快为准则的互联网社会,对于"生命要浪费在美好的事物上"的期待与向往,使得我们的日常就是一场与时间的战斗.而有效的时间管理方法,无疑就是助力你取得成功.通向自由的利器. 这种"快进"的生活节奏,也悄然影响了很多传统行业的加速转型:一个小时的午餐时间稍显奢侈,人们为了节省时间不再选择外出就餐,取而代之的是办公室餐饮,也催生了外卖业务为主导的餐饮革命:随着消费升级,对于消费者节约时间成本的需求洞察,成为了新零售的转型机遇:而扫地机器人.

自动驾驶领域传感技术应用盘点

"自动驾驶"已经成为在诸多媒体上频频被提及的一个热词.Google.Uber等科技公司和通用.大众等汽车巨头均在自动驾驶上投入巨大精力进行研发,相关厂商也预计在3-5年内,"具备自动驾驶功能的汽车就能实现商用". 必须说明的是,"自动驾驶"并不是什么新生事物,早在上个世纪50年代,美国无线电公司(Radio Corporation of America,RCA)宣称其已经掌握了自动驾驶汽车的相关技术,并实现了一次距离为400英尺(120米左右)的

【新智元人工智能创业家】驭势吴甘沙:如何突围自动驾驶汽车?

创始人的初心 2016 年 3 月 27 日,吴甘沙当选新智元 2016 人工智能创业家时,在新智元超智能时代论坛上发表了一番演讲,题目为:让出行成为享受.   "知识分子要让他去革命的话,一定要触及他的根本利益,以此推理,外企的高管要出来创业也得触及他的根本利益.去年7 月我搬到顺义,在中关村上班,于是开始了每天三个小时在上班路上的痛苦日子.所以,当有一天我的创业合作伙伴赵勇和我谈起自动驾驶时,我的内心一下子就原力觉醒了."   吴甘沙是有创业梦想的.早在2001 年,吴甘沙就差点投

黑客干扰可“致盲”特斯拉传感器 自动驾驶不等于无人驾驶

11月7日下午消息,尽管特斯拉始终在推进自己的自动驾驶技术,但是近期被曝光的几起自动驾驶事故依然让其备受争议.今天下午360汽车安全实验室旗下的汽车黑客训练营V-Hacker召集了十几位特斯拉车主,现场展示了在"黑客"干扰下,特斯拉自动驾驶系统对路况判断的失误. 在现场,360汽车安全实验室负责人.信息安全专家刘健皓在启动自动驾驶功能后,通过"黑客"技术对特斯拉自动驾驶传感器进行了干扰,使得特斯拉直接撞上了前方50厘米出现的障碍物.据刘健浩介绍,特斯拉传感器系统需要

【无人驾驶量产得靠128线廉价激光雷达,中国将是最大市场】专访Velodyne自动驾驶VP

激光雷达和微波传感器,也就是雷达(Radar)以及摄像头一起构成了自动驾驶感知周围环境的"眼睛",目前绝大多数的自动驾驶企业都采用三者融合的多传感器解决方案,除了特斯拉.激光雷达虽然性能最佳,但是成本高昂,其价格的下降被认为是实现自动驾驶大规模量产,走向商用的一大前提条件. 世界上最大的老牌激光雷达生产商Velodyne 近日发布了128线的激光雷达,引起业内广泛关注,在激光束的数量上,新产品是以前的顶级型号的两倍. Velodyne LiDAR总裁Mike Jellen在一份公告中表