演讲实录丨山世光闲话AI时代的视觉智能

小编按

10月22日，来自国内外人工智能专家及行业领袖齐聚世界机器人大会，在其专题论坛2016中国智能机器人产业高峰论坛上展开一场别开生面的机器人和人工智能主题演讲，并带来精彩互动交流。

了解到还有很多粉丝不能到场参会，小编特地整理了参会嘉宾中科视拓董事长、计算机视觉专家山世光的报告速记，让大家一睹为快~

本文根据速记进行整理

闲话AI时代的视觉智能

山世光

中科视拓董事长、计算机视觉专家

山世光：非常高兴今天有机会到这样一个论坛上来分享一下关于在人工智能时代的计算机视觉发展情况。今天我们这个论坛一个青年论坛，所以应该是几位讲者比较年轻。首先，其实为什么叫闲话，组织这个论坛过程当中我们讨论这个论坛的主要听众谁？包括达到什么效果？我说之前讲的偏技术一点，这次希望能够比较闲谈一点，关于人工智能这样一个话题。

可能大家非常切身感受到人工智能在过去两三年时间里面，成为一个非常热的话题。我们称之为人工智能AI热潮。大家知道人工智能热潮不是第一次，也许也不是最后一次。因为在上个世纪60年代和80年代分别曾经有过人工智能的热潮，但是之后很快相继出现AI寒冬这样一个概念。这次人工智能热潮和前两次人工智能热潮有什么不同？前两次AI热潮其实因为不能够兑现承诺进入寒冬，前两次人工智能进入热潮的时候，人工智能科学家他们给出一些预测和承诺，这些没有达到一个目标，所以进入寒冬。

而这次跟过去不同，主要体现在这次热潮不是基于承诺，而是基于进步。这个进步有哪些方法？举个例子，一个大家非常熟悉的阿尔法G在今年比赛上打败了（李世石音译），在人工智能研究人员来看跨越式发展，之前可能说人工智能打败人可能还需要10年或者更久时间，可是这个时间很快出现了。

在计算机视觉而言，在过去两三年时间里面，计算机视觉来主导的或者是作为辅助这种汽车辅助驾驶系统走入我们生活。（特斯拉音译）辅助两者结合进入辅助驾驶功能，这些功能准确估计和前车的距离，包括前车的速度，以及车道线的偏离，做预警提醒驾驶员的功能。其实计算机视觉技术做简单巡航自动驾驶，逐渐随着（特斯拉音译）几次车祸之后进入公众视野。

第三个，从人脸识别过程来讲，两三面时间里面进入跨越式发展。这个发展不是说我们人为讲的，而是基于测试数据。比如有一个人脸数据库上面，人脸识别错误率从5%下降到0.5%，大概是10倍错误率下降。还有之前认为在四年之前的时候，认为说刷身份证去和持有人对比是不是合法持有人这件事情，在四年前我们认为这件事情非常难，可是现在变的现实了可以做的比人还准。这种系统很多厂商公司可以做这件事情，基本可以替代人比人做的比较好的这样一件事情。

第四个，自动图题技术，给计算机一张照片，计算机生成一段话表述这张图中的内容。对小学生要求一个看图作文，这件事情在几年前不可想象，可是在过去一两年时间里面一些研究组取得了非常好的结果，计算机自动生成这些描述可以以假乱真，让人难以判断到底计算机生成还是人写出来的，这些进步比较实在。这些进步导致了大家对于人工智能这样一个话题越来越感兴趣。

实际上人工智能这样一个热潮背后，应该说是有几个大引擎起作用。第一个引擎，非学术界人知道所谓深度学习，并不是一个新的创新，我们甚至认为其实上个世纪80年代时候出现，或者已经是非常好的模型，那个时候出现。计算机视觉为例，左边这些图右边这些图都是最早1989年的时候，其实我们用的还是卷近式的网络。这些变种一个非常显著的变化，这个层次越来越深，比如说从98年军进深（音译）这个概念提出来，等等这些模型都是上个世纪80年代以后出现了。更多是一个多层人工智能神经网络一个复兴。

第二个就是大数据，这一点也是非常重要的。刚才提到说深度学习它的基本模型在上个世纪80年代出现，为什么那个时候没有像现在做的那么好？当时缺少条件就是大数据，大数据出现让我们认识到深层次神经网络模型它的优势。很多人知道计算机视觉领域2012年时候出现非常大的进步，这个进步就是竞赛，为什么这一年竞赛里面最好的结果用深度学习之后错误率比第二年降低了10个百分点，传统方法可能是26%的错误率，用到深度学习之后变成10%的错误率，这是非常大的进步。

此后这几年算法精度不断提高，错误率到16%到现在三点几。这里面非常重要一个起动，为什么在12年，2011年前后的时候，斯坦福大学李菲菲（音译）构建了一个数据集，这里面数据千万量级，使得这些深度模型它的潜力被挖掘出来。

第三个引擎，高性能计算。现在大家做计算机视觉等等知道大量学习是在GPO等等平台上进行，而这个GPO在过去几年时间里面逐渐走向历史舞台。我们这些模型深度学习模型都有大量参与要学习，600多万参数学习。这样大规模学习需要非常强的计算能力。

第四个，还有一个引擎所谓智力众包，很多研究人员把他们模型、算法、数据进行开元，这里面包括深度学习的模型，以及一些开发深度学习模型的平台，这些平台出现使得大家可以越来越多人有机会进行深度学习研究。这个就像火箭一样，有不同的引擎，这些引擎使得我们可以能够做大量工作。

当然我们需要判断这一轮人工智能热潮有多大？再过几年人工智能打败人甚至统治地球，在研究员眼里面这些论断过早。理性判断进步应该说这一轮人工智能通用性得到大大的提高。比如说人脸识别，过去我们其实做人脸识别的人采取技术方案，往往其他的猫脸等等用的方法不一样，在深度学习之后人脸技术得到深入学习。语音识别里面用的也是深度学习，底层技术通用性比过去有了很大的提高。

还有一个例子，假设五年前我们做安全帽检测任务。大家觉得人脸识别肯定比安全帽难，实际上我们做安全帽检测的时候也是非常麻烦，五年前也是半年时间可以做这个事情，现在深度学习来了之后可以用人脸识别模型拿安全帽这些数据训练深度学习模型也会在安全帽上也是非常好，通用性技术越来越可得。这个非常重要规律不同任务可以共享不同这样一些技术。

当然这个对人工智能热潮来说，人工智能从业者我们希望说这个热潮不断持续下去，但是我们注意不要去过渡承诺，避免出现第三次寒冬。有很多东西还是不能做。通用人工智能还是没有出现，比如说AlphaGo。我们看到很多机器人，但是买了时候是这个样子，两年后还是这个样子，不会自我学习和进化能力。这样显然这个人工智能进步也是会大大折扣，从这个两个角度，一个通用人工智能没有出现，第二个不具备自我成长能力，使得人工智能智力成长没有我们现象那么容易，需要大量人工智能研究员去迭代它，而不是自己学习和成长。

对于这个领域而言，我们现在用的都是深度学习。深度学习带来很大进步，但是深度学习认为是一个有监督大数据一个狂欢。当你有大量人工标注好的监督数据，就是说我们需要给一张照片，这个照片里面是张三还是李四需要这个信号，并不知道这个照片里人是谁？这个是没有办法做的。深度学习是一个归纳法，从大量数据里面学习，高考时候题海战术，通过大量作题获得越来越多一般性知识的总结。

我们人类学习还有一个非常重要的方法，演绎法。我们从一个公里出发，可以有很多推论，这个推论可以用到生活里面。现在深度学习很难做一个演绎性推理。这种有监督大数据一个需求，使得在过去几年时间里面出现数据工程师等等这样一些职业，其实大量的钱过去花在算法，现在还要另外一部分钱买一些有标注的数据。比如这张照片，但是我不告诉你这张照片人脸在什么地方？这就是弱的监督信号。比如从互联网从搜刘德华，可能1万张照片的刘德华，可能不是全部是刘德华，这些脏乱差的数据如何学习，这也是一种能力。

对于机器人来说，要想认猫目前有大量数据给它，才能认的比较好。还有这次深度学习的热潮，大家可以认为是一个从过去专家系统到一个数据驱动模式变迁，过去非常依赖于专家知识，告诉计算机编程序，使得人工系统可以知道这个任务，这次热潮我们在数据里面学，不再依赖于专家。人类学习很多时候当专家起很大作用引导，实际我们认为未来也需要专家知识和数据联合驱动。

另外，虽然这次我们的深度学习是从过去人工设置专家的特征和知识，教计算机怎么做到数据来教，结构还是人设计。未来我们相信可能结构也要从数据里面学。

还有交互式学习，我们希望机器自己去学习。买了一个机器人回家，通过跟家庭成员交流，聊天，这个过程当中家庭成员会纠正他的错误，机器人不断能够成长和进步。包括他自己去看书，到互联网上上网，或者去看电视也可以去学习。大家知道小兵跟大量网友聊天可以学到很多东西，但是也可能学坏。还有一个特点，我们讨论是在中国环境下面，人工智能我们是不是走到前面还是落后，总体来说我们应该处于追赶状态，主要非常重要模型提出者主要还是在北美，当然还有华人做的贡献。这些平台我们还是有一些劣势，另一方面这些国际行业巨头也有一些寡头化趋势。

学术界互动里面，某些问题上学术界走在工业界后面，主要原因学术界缺少对数据掌握，使得学术界很多研究人员甚至领域前沿问题难以把握，这是值得注意一个趋势。

最近讲了一个观点，学术界和工业之间进行互动过程当中存在一个鸿沟。学术界人往往需要从第一步走到一百步的时候满足用户需求，学术界可能走出30步，中小微企业没有走前面更多的步骤，可能从70步走。中间40步可能更多是吵架，导致很多东西进步缓慢。工业界和学术界往中间走一走，把中间这个40步弥补。我们有一些科技公司，在嫁接学术界和工业界中间进行嫁接技术，把这个40步走完。

还有一点，我觉得这次人工智能热潮出现，在很多程度上取决于整个领域大家越来越多开元、开放、数据共享，这样现象有一个概念叫火旋风，比如说在草原上起了很多火点，当达到一个密度之后，形成一个非常高的龙卷风火旋风。很多一些火点他们能够形成一个良好的互动，就会出现这样一种现象。回到我们人工智能这个领域里面，我认为大家需要有一种精神开元、开放和能够有更多共享，这种共享也可以在平台方面，也可以基础元代码方面，以及数据方面，大家一起评估这个领域的进步有关系。大家做共享的时候，有机会形成人工智能的火旋风。

本人过去一段时间里面成立一个公司，依托在我们单位里面，把这个实验室做成企业研究院，我们公司承担走中间40步作用。我们有一个开元一套人脸识别引擎，这是一个全开元，全自动人脸识别的系统。这里面实现人脸识别、定位等等功能。同时共享一些数据，开了一些公众号和大家共享计算机视觉领域一些进步，这些进步我们邀请前沿一些专家撰写，共享给大家。

我们考虑对人才培养，以及通过一些合作回馈学术界等等一些工作。当然我们希望能够理性推介AI这个领域的进步。谢谢大家！

本文来源于"中国人工智能学会",原文发表时间" 2016-10-26 "

时间： 2024-12-31 19:45:24

演讲实录丨山世光闲话AI时代的视觉智能

演讲实录丨山世光闲话AI时代的视觉智能的相关文章

演讲实录丨余胜泉大数据时代的教育智能

演讲实录丨沈晓卫引领认知时代的创新

中科视拓CTO山世光：如何用X数据驱动AI成长？ | CCF-GAIR 2017

大牛讲堂 | 山世光博士：自动驾驶系统中的目标检测技术

CNCC 2016 | 山世光：深度化的人脸检测与识别技术—进展与展望

【演讲实录+视频】走近40+世界级AI专家！第三届中国人工智能大会资料分享

演讲实录丨何军增强现实的产业方向

演讲实录丨吕学强当代教育的智能化趋势

CAAI演讲实录丨李德毅院士：交互认知——从图灵测试的漏洞谈开去

演讲实录丨山世光 闲话AI时代的视觉智能

演讲实录丨山世光 闲话AI时代的视觉智能的相关文章

演讲实录丨山世光闲话AI时代的视觉智能

演讲实录丨山世光闲话AI时代的视觉智能的相关文章