中国人工智能学会通讯——技术向左,商业向右 计算机视觉落地之路

我是2002年开始做人工智能,特别是计算机视觉方面的研究的,做了大概15年,基本上对于传统行业、互联网、移动互联网,以及新兴行业的产品都有一些接触和参与。格灵深瞳是2013年成立的一家创业公司,是国内计算机视觉和人工智能行业中比较有影响力的一家公司。今天,我主要结合格灵深瞳的一些产品,讲一下对计算机视觉技术落地的理解和感触。

人工智能是一个非常火的领域,而计算机视觉相对来说,大家听得少一点,所以我简单讲一下这两个领域相互之间的关系。人工智能实际上是一个大的应用领域的统称,比如机器人、自动驾驶和智能医疗等应用都属于人工智能范畴,是人工智能应用的子方向。人工智能技术从研究目标的角度划分,主要包括三个技术方向:一是计算机视觉,即对图像视频的分析和研究;二是语音识别,就是对语音信号的研究;三是对自然语言的理解。而上述提及的机器人等应用可能会使用到上述计算机视觉等多个技术领域的技术。

提到人工智能,就不得不说机器学习。机器学习是人工智能领域中最核心的算法部分,它是计算机视觉、语音识别、自然语言理解等子领域的基础,机器学习的进步也推动着计算机视觉、语音识别、自然语言等领域的技术进步。而深度学习作为当下最强大和最热门的一种机器学习算法,是当今人工智能领域的最大推动力。

回到计算机视觉。计算机视觉的研究目标是让计算机看懂世界。这一目标最早可以追溯到1966年,Marvin Minsky作为MIT的一名教师(也是人工智能领域的先行者),当时给学生们留下一个暑假课题,希望通过一个连接在计算机上的摄像头,来描述周围看到的东西。计算机视觉识别系统,可以简单抽象说,就是接收到各种不同的传感器信号之后,包括普通的摄像头、不同的深度摄像头,以及其他激光的摄像头,再对这些传感器采集获取的数据进行分析和处理,输出对世界的理解。

在深度学习技术出现之前,传统时代比较成熟的计算机视觉应用产品包括停车场车牌识别、手机上的指纹识别、数码相机里用来做人脸的自动曝光,或者是自动对焦的人脸检测、美颜相机、相册管理及工业检测等。2011年前,可以称作是传统时代,作为计算机视觉领域的从业者往往感到很困惑。第一,近50年过去了,真正成熟的应用很少,创造的价值也很有限;第二,技术提升很难,努力一年,只能使识别率从75%提高到78%,还是无法实用;第三,每个问题都需要不同的技能来解决(比如做人脸识别的工程师和做文字识别的工程师需要的技能很不同,切换困难);第四,虽然在学校里做视觉研究的人很多,但面临工作的时,工作机会非常少,导致大量的人才流向了其他行业,比如数据挖掘。这种情况一直持续到深度学习的出现。

深度学习技术的横空出世,使得很多方面都取得了巨大的突破,从2011年的语音识别、2012年的图像分类、2014年的人脸识别和机器翻译,到2016年的增强学习。大家最为熟知的应该就是去年发生的Google的AlphaGo与世界顶尖围棋高手的人机大战。这件事引发了众多关于人工智能的讨论和关注,也使得这个领域变成一个被社会各界所热衷讨论的一个方向。可以预测,对于无论是机器人、无人驾驶,还是智能医疗这些领域,深度学习技术一定会推动它们取得更大的发展

那么深度学习有什么特点?简单来讲一下深度学习的概念。我们可以把深度学习理解成一个非线性映射的黑盒,它可以将一个输入信号处理成为一个具有语义的输出。以目标检测为例,输入的是图像信号,经过深度学习的处理,我们可以获取到目标物体在图片中所处的位置信息。这个黑盒的特点是什么?从结构上说,深度学习的模型是多个层的级联结构,增加层就等价于增加了表示能力,某种意义上可以说,它的表示能力是没有上限的,而传统模型增加表示能力则非常困难。由于表示能力非常强,当数据增加的情况下,深度模型可以获得巨大提升,而传统模型则由于表示能力有限,从数据增加获得的收益相对较少。另外,深度学习的表示是数据驱动下的基于学习的方法,相对传统的专家设计的特征,一方面可以更好地学习得到数据的表示;另外一方面,对于不同数据,可以采用同样的框架和方法,中间环节少,生产效率更高。举例来说,今天无论是做文字识别还是人脸识别,或者是语音识别还是自然语言理解,它们使用的深度学习方法都有相通之处,可以相互借鉴,大大提高了行业的生产力。

然而,由于深度学习需要比较多的数据和运算资源,且整个运算过程是一个“黑盒”状态,所以我们是无法解释在“黑盒”里发生了什么;如果出了什么问题,也没有办法依据语义规则直接修改。由于深度学习是一个简单的非线性映射结构,所以它是没有办法处理结构很复杂的内容,比如它还无法模拟人的情感、想象力、记忆等。我们经常会听到大家讨论,人工智能会不会威胁人类之类的言论,从这个角度上来讲,大家的担心有一些过早。当然也许未来深度学习架构有大的发展之后会有不同变化,但是这一定不是一个短期过程。

那么,深度学习技术的成功依赖于什么?可以归纳为三点。第一,算法本身的进步。这个进步使得训练一个更大更深的网络成为可能。第二,数据量的增长。今天是移动互联网时代,每天都有大量的数据产生,所以我们能够使用的数据量也越来越大。以计算机视觉领域为例,2007年左右最主流的图像识别数据集叫做Pascal VOC,是一个包含十几类物体,共1万多张图片的任务。而现在最主流的图像识别数据集ImageNet,包含1 000千多类物体,由100万张图片组成。相信后面一定会有更大规模的公开数据集出现。在私有数据方面,Google有一个人脸识别方面的工作叫做FaceNet,使用了100万个人的数据训练,共包含1亿多张图片。据我了解,国内一些做人脸识别的公司,使用的训练数据量基本上都是以亿计的。某种意义上来讲,数据量的增长在不断推动深度学习技术的发展。第三,硬件的快速发展。前一段时间Nvidia在GTC上发布了新的最强大的GPU V100,这比去年同期发布的最先进的P100又强大了很多。某种意义上,深度学习的发展是由NVIDIA GPU的计算能力的提升推动的。

在深度学习技术日渐强大的同时,它对计算机视觉算法也带来了很大的影响。在图像识别方面,以ImageNet为例,2012年以来,图像识别的错误率逐年大幅下降。在人脸识别方面,以著名的人脸识别数据集LFW为例,在使用传统方法的情况下,错误率在7%左右,而深度学习的方法使得错误率锐减到了千分之二。可以看到,在越来越多的限定任务上,深度学习使得计算机的识别能力开始超越人类。

从计算机视觉的应用角度来讲,深度学习使得很多原来看似不可能的应用领域,慢慢变成了可能,可以说深度学习使得计算机视觉应用从传统时代进入了“爆炸式的增长”的智能时代。移动互联网、智能安全、机器人、自动驾驶、医疗、无人机及增强现实等应用都在蓬勃发展,这是过去50年从来未有过的。

那么,如何去判断某项计算机视觉技术的应用能否成功?我个人认为,首先需要从需求角度出发,看到底是不是一个刚性需求。这不仅是看大家要不要,且大家说需要的并等于是真需求,还需要去确定有没有更便宜的替代方案,以及用户到底愿意花多少钱;其次需要看技术是不是足够成熟。我认为最理想的情况是,在技术足够成熟的情况下,成本非常便宜,这样才会有更多用户愿意为这个技术买单。比如像AlphaGo这样的产品,如果需要很多台服务器才能完成运算,肯定无法成为一个大规模应用的产品。对于现在提及非常多的无人驾驶及机器人,从某种意义上来讲,短期看还没有办法做到特别大规模的应用。因为从技术角度上来说,在这个时间点,技术还不够成熟。但是,在一些特定的场景下,在一些特定的领域里,可以做一些应用,来慢慢推动这个技术的成熟。而这些需求无疑都是刚需。也正是因为这些刚需现阶段的技术手段还没有完全满足,所以才是巨大的机会。这也是为什么包括格灵深瞳在内的许多公司都在这些领域进行投入的重要原因。

下面我结合格灵深瞳目前做的应用方向来谈一谈。格灵深瞳的一个重要方向是基于云端的智能分析和识别。拿智能安全举例来说,现在我们有太多的摄像头,这些摄像头每天产生大量视频信息,但其实我们很多时候并不知道里面发生了什么。当有事故发生时,我们没有办法从一大堆数据中立刻提取出对我们有用的信息。如果我们能够把一段视频转换为人、车的数量、位置、车牌号、属性等这些信息,都可以更好地检索和使用这些视频数据,还可以跨摄像头来完成很多智能分析功能。这无疑会改变视频行业,其实这个改变已经在发生了。

具体来说,在人脸方向,我们做了人脸检测/跟踪、特征点定位、属性识别以及人脸识别。这段视频,是用我们的人脸抓拍比对系统做的一个实验,来测试我们的人脸识别到底有多好。我们在办公室各个角落,架设了许多摄像头来抓拍人脸,这些照片在抓拍之后会自动放到一个数据库中,做这个实验时数据库中共有10万张左右图片。识别系统本身自带的摄像头会抓取当前摄像头前的人脸,抓取后的人脸会被送到后台与数据库里的人脸进行比对,右侧会显示出数据库里面与之最像的人脸,如果左右图片显示是同一个人,就说明比对成功。在这个实验中,我们希望测试人员能够挑战这个系统,可以看到,有的测试人员在面对识别系统做鬼脸,面部表情非常丰富;有的测试人员特别是女孩子,在改变发型,系统都可以很好的工作。甚至在北京雾霾时,有些同事戴了口罩,系统依然可以正常工作。我在这个领域已经工作了很久,以前在10万图片量级的图片库中,搜索到正确的图片且让它排在第一的位置就是一个比较困难的课题。而目前看,近期技术的进步真的非常巨大。

除了人脸的检索和识别外,我们还可以做人体的结构化信息输出。目前我们一共做了50多种结构化信息,包括性别、年龄、是否背包、抱孩子、戴眼镜/口罩等。此外,我们的产品还可以利用被检索人之前的一张图片,到视频中去搜索这个人在哪些地方出现过。人在视频中因为角度不同,姿态也就不同,要在视频中去做这样的搜索,是一件比较有挑战的事情。这个产品目前看在一些较复杂的场景下也可以很好的工作。

同样,在车辆的检索和识别上也做了一些类似的工作,我们称为车辆的结构化。具体来说,我们可以利用一张目标车辆的图片,从一段视频中检测并且识别出它。与此同时会给出这个目标车辆的相关信息,包括它的颜色、粗粒度的类别,比如属于面包车还是SUV,车牌号,车的主品牌、子品牌。如果是同一品牌不同年份的车,我们也会给出这些详细的信息。对于主品牌、子品牌这些细粒度的识别,我们可以支持到3 000多种。

下面用一个真实场景下的例子作进一步解释。这是一个路口的视频,在这样的场景下,系统对于车的品牌识别能力已经超越了人。还有一种情况是,一些肇事车辆往往没有车牌,我们可以利用它的图片本身作为输入信息,通过图像搜索的方式在视频中找到和它最相近的车。即使在一些复杂或者是环境不理想的情况下(如恶劣天气),目前我们的系统结果还是比较理想的。

但是,基于云端分析的最大挑战在于网络宽带和中心节点的运算压力。我们认为,智能前端化是一个无法逆转的趋势,所以也希望赋予每个摄像头以智能。对于安全场景,现有的摄像头作用距离基本上在3~5米左右,针对这种情况,我们自主研发了一款智能摄像机,叫做FoveaCam或人眼摄像机。人眼摄像机,可以看清并抓拍到四五十米内的人脸,而且图像质量非常好。下面的视频是一个例子,在这样开阔视野的场景下,即使远到我们肉眼无法看到人脸或者是人体信息,相机都可以被清晰捕捉到。这样再结合我们的人脸比对系统,远距离的人脸抓拍及比对就能很好地完成。

虽然我前面提到了很多用深度学习可以解决的问题,但深度学习并不是万能的。比如,当只有二维数据,即彩色图像输入,图像中两个目标物体相互遮挡,我们就无法仅靠图像分析出它们之间的位置关系。因此,我们研发出另一款创新性产品——皓目行为分析仪。皓目行为分析仪有一个深度信息传感器,利用这个传感器,就可以得到空间的三维数据,从而分析出空间中两个目标的位置关系。这就解决了在现实场景中,拥挤人群的遮挡问题。以上就是我们目前在感知智能方面的产品应用情况。

下面介绍一下我们在其他领域的探索。大家知道,人除了感知能力外,还有很强的控制和运动的能力,所以在感知之外,我们也在探索拓展智能的边界。

自动驾驶是我们在人工智能这条路上探索的另外一个领域。我们很早就关注自动驾驶领域,但我们认为只做ADAS是没有前途的,应该做自动驾驶汽车才是最对的方向。为了真的做出一辆“车”来,单靠格灵深瞳一己之力是无法完成的,所以将我们的自动驾驶团队分离出去,并联合了前Intel研究院院长吴甘沙、北京理工大学自动驾驶冠军团队负责人姜岩等,成立了驭势科技专注做自动驾驶。这个视频是《焦点访谈》节目的记者,为了测试驭势自动驾驶汽车的稳定性做的一个实验。他们在车顶放了硬币和打火机,当自动驾驶汽车在北京三环上跑完一圈后,这些小物件竟然还在车顶。

除此之外,我们在机器人领域也有一些探索。

大家可以看到,在人工智能领域我们做了很多工作,也取得了一些成果。但是对于我们而言,一直还是认为自己是在这条路上摸索前进。

在这个时代,做计算机视觉的应用和产品,到底面临着哪些挑战?首先,虽然深度学习已经取得了巨大进步,但在短期时间内再取得巨大突破的可能性比较小,必须依赖硬件、应用、数据的驱动来推动落地。其次,从产品角度来讲,想找到技术成熟且刚需的产品方向并非易事;找到既懂AI技术,又懂产品人才更是少之又少。第三,目前大热的无人驾驶、机器人、智慧医疗、增强现实等方向,在短期之内产品落地面临着种种挑战。第四,对于一个创业公司来说,人才和产品方向上会面临大公司的竞争和挑战。当然,如果能克服这些困难,完成挑战,毋庸置疑会得到巨大的机遇和发展。

决定计算机视觉技术是否能大规模应用的因素主要是准确率和成本两个因素。

从技术路径角度而言,我个人认为会遵循云—端—芯片这样的路径。

(1)云。通过云的方式,能够促进算法快速落地的应用,产生大量数据,从而快速迭代算法,促进算法成熟,推动应用发展。云的主要优势在于快速灵活,必然是早期的必经阶段。

(2)端+云。通过端+云的方式,来减少网络带宽的占用,将运算由中心分散到前端,一定是未来的重要趋势.

(3)芯片。芯片一定是大规模应用的终极阶段,是降低成本,提高运算能力的关键所在,但必然是在算法成熟、应用被大众广泛接受后,才能完成的一件事。

从商业模式的角度,我认为单纯的算法提供是没有未来的,只有深入场景才能促使技术落地,从而创造最大价值。因为从产业链的角度,单纯的算法模式是很难持续的,随着技术进步,算法的领先优势比较难保持,在激烈的竞争下,算法在产业链内分得的利益会逐步减少,而深入场景形成闭环获得数据,才能真正建立护城河,并从数据中获取更大价值。

这个时代,大家看到,在人工智能行业创业的公司很多,但什么样的公司才有机会成功?我想这里面最核心的因素是人才、技术和产品。首先需要聚集一批技术人才,以及一批产品人才;而在技术方面,需要能够具有大数据的获取能力,以及大规模深度神经网络训练能力。除此之外,需要能够分享借助硬件发展的红利。产品方面,需要找到刚需,创造价值,用产品逻辑弥补技术缺陷,迅速落地,尽快产生收入,度过可能到来的冬天。此外,一个良性的人工智能公司的良性状态,应该是将技术、产品和数据形成一个正向循环。首先用好技术打造出好产品,而好的产品又产生很多的数据,这些数据反哺过来推动技术的进步,这样才能达到一种良性的循环。

人工智能必然是一次长跑,但人们往往会高估一项技术的短期表现,低估一项技术的长期表现。在这个时间点,大家觉得人工智能非常厉害,似乎要马上改变世界。但是,我认为要想让人工智能技术真正地改变和影响人们的生活,必然会经历一个更长的时期,有可能是十年,或是更久。那么在这么长的时间段里,技术会不断地更新和迭代,也只有经历过技术不断更新和迭代的公司,才能在长期过程中,推动这个行业的发展。

对于我们做人工智能行业的从业者来讲,我想我们共同的愿景应该叫做“做有温度的人工智能”,就是希望人工智能能够帮助人、解放人,把更多的价值和好处带给人们,去改变和影响人们的生活。

(本报告根据速记整理)

时间: 2024-10-31 04:09:33

中国人工智能学会通讯——技术向左,商业向右 计算机视觉落地之路的相关文章

中国人工智能学会通讯——无智能,不驾驶——面向未来的智能驾驶时代 ( 下 )

到目前为止似乎比较完美,而实际还 存在着一些问题.我们现在看到很多道 路上面,交通标志牌它的分布非常稀疏, 可能每过一两公里才能够检测出来一个 交通标志牌,因为毕竟这个深度学习算 法是目前最完美的,它有时候还会错过 一个交通标志牌,这时候怎么办呢?我 们会发现在路面上也有非常明显的视觉 特征,我只要把路面的这些视觉特征识 别出来进行匹配,其实是有连续的绝对 的视觉参考的.所以我们做的办法是, 把这个路面粘贴起来.这个粘贴的方法 很简单,跟我们手机拍场景图片一样, 我们慢慢移动的时候可以把这个场景

中国人工智能学会通讯——机器学习里的贝叶斯基本理论、模型和算法

非常感 谢周老师给这个机会让我跟大家分享一下.我今天想和大家分享的是,在深度学习或者大数据环境下我们怎么去看待相对来说比较传统的一类方法--贝叶斯方法.它是在机器学习和人工智能里比较经典的方法. 类似的报告我之前在CCF ADL讲过,包括去年暑假周老师做学术主任在广州有过一次报告,大家如果想看相关的工作,我们写了一篇文章,正好我今天讲的大部分思想在这个文章里面有一个更系统的讲述,大家可以下去找这篇文章读. 这次分享主要包括三个部分: 第一部分:基本理论.模型和算法 贝叶斯方法基础 正则化贝叶斯推

中国人工智能学会通讯——深蓝、沃森与AlphaGo

在 2016 年 3 月 份,正当李 世石与AlphaGo 进行人机大战的时候,我曾经写过 一 篇< 人 工 智 能 的 里 程 碑: 从 深 蓝 到AlphaGo>,自从 1997 年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平.但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特卡洛树搜索方法之后,也只能达到业余 5 段的水平.所以 AlphaGo 战胜韩国棋手李世石,确实是人

中国人工智能学会通讯——深度学习与视觉计算 1.3 计算机视觉领域利用深度学习可能带来的未来研究方向

1.3 计算机视觉领域利用深度学习可能带来的未来研究方向 第一个,深度图像分析.目前基于深度 学习的图像算法在实验数据库上效果还是 不错的,但是远远不能够满足实际大规模 应用需求,需要进一步的提升算法性能从 而能够转化相应的实际应用.比如这个基 于图片的应用,可以估计性别和年龄,但 是其实经常会犯错,因此需要进一步提升 深度图像分析的性能. 第二个,深度视频分析.视频分析牵扯 到大量的数据和计算量,所以做起来更加 麻烦.当前深度视频分析还处于起步的阶 段,然而视频应用非常广泛,比如人机交互. 智

中国人工智能学会通讯——智创未来 未来已来

2016 年带着我们难忘的记忆,就这样翻篇了.由我们学会发起.全国多个组织积极参与的.纪念全球人工智能 60 年的一个个系列活动历历在目,在我们身边发生的种种无人驾驶的比赛和试验活动还在让我们激动不已,AlphaGo 战胜人类围棋冠军李世石的震荡被 Master 的新战绩推向又一个新高潮,时间就这样把我们带入了新的一年--2017 年. 对 2017 年的人工智能,我们会有什么期待呢? 深度学习会火 无人驾驶会火 机器人产业会火 机器同传会火 人机博弈会火 交互认知会火 不确定性人工智能会火 智

中国人工智能学会通讯——着力突破与创新 实现超越与引领

提 要 2016年3月,围棋人机大战的结果,在舆论界激起了惊涛骇浪:在科技界也引起了强烈反响.为了把握人工智能的发展现状和规律,探讨我国人工智能的发展战略,在中国人工智能学会和众多人工智能同行的支持下,由本文作者出面申请了一次高层战略研讨会,这就是以"发展人工智能,引领科技创新"为主题的香山科学会议.与会者同气相求.同心协力,站在国家战略的高度,以纵览全球的视野,通过深入的研讨和论证,凝聚了诸多宝贵的共识,形成了直送中央的<关于加快发展我国人工智能的专家建议>.本文简要介绍

中国人工智能学会通讯——2016机器智能前沿论坛召开

2016 年 12 月 17 日,由中国人工智能学会.中国工程院战略咨询中心主办,今日头条.IEEE<计算科学评论>协办的"2016机器智能前沿论坛"暨"2016 BYTE CUP国际机器学习竞赛颁奖仪式"在中国工程院举办.论坛嘉宾包括中外顶尖的数据挖掘.机器学习,以及自然语言处理方向的专家学者. 与以往不同,本次论坛除介绍机器学习的重大进展和应用外,还着重讨论了机器学习技术在媒体数据上的应用,并为2016 BYTE CUP 国际机器学习竞赛的获奖选手进

中国人工智能学会通讯——Master虽优势较多 但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版.众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆:同时状态空间大,也没有全局的结构.这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢.但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的.这些规律远远不是几条简单公式所能概括,但所需的信息量

中国人工智能学会通讯——人工智能的冰与火之歌

从 2006 年到 2016 年,我感触最深的是,这 10 年是深度学习的普及和推广期,其在很多应用中取得了突破性进展:但所有成果均为感知方面的应用,如图像识别.语音识别等.而从 2016 年开始,最大的不同是像AlphaGo和自动驾驶等人工智能系统,开始从感知过渡到决策:这些系统基于对这个世界的理解,从而主动优化它的决策机制.因此,从感知到决策是最大的变化,人工智能只有做决策才能真正改变世界.我认为在未来的 10 年里,怎么优化地去做决策是人工智能的重点课题. 下面,我就 2016 以来人工智