中国人工智能学会通讯——数据助力智能驾驶体验

我个人的经历,之前也从事人工智能方面的工作,多数在语音识别研究和应用。从去年加入数据堂以来,专注于在AI数据。数据和人工智能之间的关系,我想大家都很了解,也不言而喻,数据是一个非常重要的方面。数据跟我们的算法之间是什么关系。我喜欢用这样一个比喻,数据是一个教材,算法像是一个老师,老师用教材去教导你未来想要产生的人工智能的任何一个应用,比如说在今天的论坛上——智能驾驶,智能驾驶就是智能应用的一个孩子。

我们先看一下智能驾驶,大家讲了很多在自动驾驶方面的事情,包括算法、硬件等。我想从另外一个角度,从纯体验的角度,展望一下智能驾驶的未来体验。作为一个车的车主,在未来的几年我们可以期望,跟自己的车成为一个什么样的关系。我希望我跟我的车是好的伙伴,我跟它之间需要有交互,而且这个交互可以是多模式的。同时,这个车大家都在追求自动,比如说我们讲自动驾驶,车要能自动驾驶。刚才有嘉宾也分享了自动驾驶的5个不同的级别,未来我们希望这个车能够达到最高的级别,在第5个级别完全自动把我载到目的地。同时它需要在自动层面做到自动控制,比如我能自动控制调节车内的温度、可以自动控制车内的娱乐设备,这是自动控制方面的。同时,这辆车也要有更多的信息共享,这里说的共享信息,可以是车与车之间的。比如说前方的车碰到了交通事故,它把交通事故的信息可以分享给大家,车与车之间的信息分享,当然车内的乘客也可以有一个信息的分享。所以在这几个方面大家可以想象一下,未来你下了班,你告诉你的汽车5分钟以后到大楼门口等我,进了车以后,告诉车说把我的座椅调整到60度,从最近的距离载我回家。在这个过程中,汽车上路了,在途中收到了汽车中心控制器发送的信息,告诉你有一个紧急的邮件需要你签字,你通过手工的签字,然后语音控制发送它,发送给你的秘书,你回到座椅上继续享受旅程。但是你回家路上正好碰到一个交通事故,你还没有到交通事故的区域,就从中控中心收到这样一个信息,告诉你前方有事故,同时给了你几个选择,可以绕开这个交通事故,这个状态下你跟你的车有另一个交互:你轻轻指了一下其中一个路线,告诉你的车从这里绕过。在整体的体验下,我们期望我们的车未来自动做一些事情,能够真地成为你的伙伴。

为了达到这个愿景,很多嘉宾和在座的各位,都在做不懈的努力,刚才有嘉宾分享了硬件方面和软件方面的研究,这些在未来的自动驾驶和智能驾驶里也是需要达到高度的融合,比如有不同的传感器、有声音传感器、有照相机,还有雷达显示器和GPS,它们得到的信息通过控制器进入中央处理器。中央处理器通过识别和算法,得到最终的判断结果。当然它需要进入到你的不同的终端,比如我要听音乐,你告诉它播放刘德华的音乐,它就需要从音乐控制终端播放音乐;从最近的距离回家,自动驾驶终端需要执行这个命令。在整个过程中,虽然还有很长的路可走,但是未来整个技术的发展和融合是不可避免的。

在这个过程中,数据也是很重要的一个方面,我们在数据堂有幸对智能驾驶领域做了一些关于数据方面的尝试,形成了一系列的数据集,服务于刚才我提到的各种不同的智能算法。这些数据集包括用于刚才我说到的交互的数据集,比如说语音交互、文字交互、手势交互,相应的一类称之为交互的数据。另外一类就是自动驾驶类的数据集。不言而喻,刚才很多嘉宾都提到了自动驾驶,大家都在做软件硬件和算法,为了满足大家对于各种不同驾驶算法的需求,我们在自动驾驶数据集里做了不同层面的标定。

首先给大家介绍一下交互数据集——语音交互,我们有两方面的东西,一个就是基础数据。基础数据的变化在于我们有很多不同语言,包括国内的普通话和方言,比如去年大家很关注上海话,上海话是最近方言领域里比较常用的交互语言;同时有欧洲语系和亚洲语系的其他语言。年龄分为成年和青少年,涵盖是从3~70岁的年龄。作为一个基础数据集大家也知道它的口音覆盖非常重要,所以我们在数据集的生产过程中,任何一种语言都会涵盖该语言的各个不同区域。作为基础数据集,它的内容是通用的内容,包括体育、娱乐、商务的内容,当然也包括我们在语音交互过程中常用的东西。大家对比一下基础数据和车载数据。车载数据是我们专门为车载环境采集的数据,它在场景和内容上就有一些不同。从内容上可以看到,在这个数据集里,除了通用的语料之外,还会加入控制命令、一些地址和音乐方面的内容,这个是针对车内的应用场景而做的一些变化。同时,在录制场景方面,车在不同的驾驶环境下、在不同的路况下,比如车速、车窗开关状态等都有一些考虑。对于车载数据和基础数据集,我们做了一个简单的测试。做算法的研究者,研究算法的提高,通常他们做的测试是基于某个测试集,测试这个算法下面的效果的改进。对于做数据的,我们做的是在不同的数据集下面,对于同样的算法效果能够提升多少。我们的基础测试显示,在车载环境下基于同一算法,有10%~30%的提升。这是语音交互方面的。

另外,从我们分享的愿景来看,我们在车里有可能用到文字,目前有中英文场景文字输入,这是一些样例。包括不同的场景,比如火车站、公园、图书馆、马路、室内,不同场景下实拍的一些照片。另外相关这类的文字交互还有手写体,因为现在在车里,大家去打字这个事情很难实现,所以下一步会做手写体的数据。

回到我今天重点跟大家介绍的自动驾驶的数据。这个数据是我们今年刚刚生产的,目前第一期已经做完了,下半年还有计划做第2期。这套数据是相机拍摄的图片,硬件上使用了两种相机,这两种相机具体的规范我不跟大家一一念了,虽然在设备上有小小的不同,但是基本上这两个相机功能差不多。拍摄时,它安装的位置是前车窗上端的中心位置。

采集范围。采集范围是在全国范围内,就是国内不同道路的路况,下面我会跟大家介绍一下对于道路类型分类的状况。

采集时间。采集时间是从早上八点到下午六七点,有一些光线的变化。

采集地点。就采集地点的细节我们做了一些分类,对比较有特点的路段进行一些特别的关注,比如在城区,有交通标识的地区有相应数据;然后就是转弯的地方;还有十字路口、有交通等灯的地方;还有隧道里比较暗的地方。从采集地点来讲,我们对这几个地点有一些特别的标定。

物体分布。针对刚才所说的几个不同的特征地点,物体的分布是有不同的。大家可以看到,在城市、城区、行人、车辆很多,隧道里几乎没有什么行人,其他地方可以看到,有一个特点,我们选择的路段,或者说我们选择做标定的图片,车辆是比较多的,因为大家做算法时,一个很重要的目标就是要检测到前方的车,所以选择的这些做过标定的路段,车辆的数目还是不少的。

标注的类型。配合大家做算法的方式,标注的类型也有几个不同的方法。一个就是标Bounding Box,这个是原图片,这是标注过以后的图片,除了标注矩形框以外,我们对标注物的属性也做了标定。另外一个标定方法就是Fine Annotation,这是像素级的标定,我们有两种不同的对象,一个是针对道路线和道路上的指示标识做的标定,另外一个就是对全景,包括天空、周围的树木和建筑做的标定。这是我们标定的内容,加起来有76类,是目前标定数据集里比较全的数据集。行人类标定了4种,一种是普通的行人;然后是骑自行车的;然后骑电动车或摩托车;还有坐着的。车也是7种类型的车,包括方向、遮挡属性、截断属性。这里都有一些详细的定义。

我们对信号灯和指示标志类也做了标注,信号灯做了10类,指示标志类30类,包括所有常见的指示标识。后面还有标的另外一大类,就是禁行标识,包括禁止通行、禁止左转等方面的一些禁行标识类的标注,前面几个类型包括红绿灯标识和禁行标识,人和车这是用Bounding Box标定的。

下面看一下Fine Annotation。Fine Annotation增加了路面标识,就是路面所有的道路线和指示标识的Fine Annotation。对于道路上的东西,我们标注了这样几类,一个是路面的指示标识,还有道路线、路面上的限速标志和道路的边界线。这几类是我们在Fine Annotation对于道路标注的方法。全品类Fine Annotation对比如在划框类标识的人和车也都做了标注,我们还增加了这几类。全景类标注,指一张图片里,把所有的物体都做标识,所以增加了一些平地。比如,路面和人行道,不属于其他标注方法的标注对象,在全景类标注里标定出来了;还有一些物体,包括电线杆东西、路边的建筑、天空、云,等于一张图片里所有物体都进行了标注,这是全景类标注的方法。

关于这个数据集介绍就到这里,这里缺的数据大家很明显看得出来,激光雷达数据所产生的照片,后面会有这类数据的规划出来。

(本报告根据速记整理)

时间: 2024-11-03 05:41:57

中国人工智能学会通讯——数据助力智能驾驶体验的相关文章

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——混合智能概念与新进展

脑科学以阐明脑的工作原理为目标,近年来已成为最重要的科学前沿领域之一.脑功能计算.脑智能模仿再度成为学术界和产业界热议话题[1-4].欧盟.美国.日本相继启动了大型脑研究计划,强有力推动了人们对脑结构.脑功能和脑智能的探索和认识:另一方面,人工智能研究风起云涌,最近一个标志性事件是谷歌的AlphaGo以4:1战胜围棋世界冠军李世石[5],实现了围棋人工智能领域史无前例的突破.2016年9月斯坦福大学发布了<2030年的人工智能与生活>报告[6],全面评估了当前人工智能的进展.挑战.机遇与展望.

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——人工智能发展的思考

2016 年是充满了纪念意义的特殊的一年:80 年前的 1936 年,"人工智能之父"图灵提出了"可计算机器"的概念,为人工智能乃至现代信息科技奠定了基础:70年前的 1946 年,世界上第一台电子计算机ENIAC 在美国滨州诞生:60 年前的 1956年"人工智能"的概念首次被提出:50 年前的 1966 年,第一次颁发"图灵奖",到目前为止已经有 64 位获奖者:10 年前的2006 年,深度学习概念开始为大家所熟悉,并流

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推