11月15日,商汤科技宣布获得高通战略投资,要将“原创AI技术基于高通的资源和芯片设计优势,在未来万物智联时代的全新生态系统中爆发更大的能量”。一个月前,商汤还与高通子公司Qualcomm Technologies达成了战略合作,要“打造终端侧AI技术的最强组合”。终端,正在成为各个企业抢占的制高点,像高通这样的传统芯片巨头开始与拥有AI算法优势的公司合作。那么,正在崛起中的AI芯片公司如何应对?
11月8日,新智元AI WORLD 2017世界人工智能大会,寒武纪副总裁王在发表题为“寒武纪@终端,但开风气不为师”的演讲,论述了这家全球首个AI芯片独角兽的智能芯片战略。从2008年中科院计算所的一个研究团队开始,到2017年全球首个大规模商用人工智能处理器的落地,寒武纪在智能处理器技术上做到了世界引领,在商业上最早落地,在此基础上,寒武纪提出了3年占领10亿智能AI终端,占领中国AI云端高性能芯片市场1/3的目标。
那么,具体如何做到?
在演讲中,王在论述了终端在智能应用生态中的重要性,“无论智能处理是放在云还是放在端,首先的入口一定是端,所以端的重要性也是显而易见的”,以及寒武纪对未来终端云端交互的预期,“终端采集数据,端云协同处理,把结果还给终端……端云共同演化,最终建立端云共同协作的生态”。王在介绍,寒武纪基于自有的指令集,进行了端云一体的规划,分三个阶段,最终做到端云协同,为端和云的应用提供统一高效的计算能力。
王在:谢谢新智元给我们这样一个机会跟大家分享。我的演讲题目是《寒武纪@终端:但开风气不为师》。这个标题可以分成两部分,前半部分是“但开风气”,寒武纪在6号的时候做了一场发布会,在发布会上CEO天石总详细介绍了寒武纪终端IP在世界上的引领地位以及众多的世界领先的成果。
但我觉得更重要的是后面三个字——“不为师”,这是寒武纪对自身的一个要求,也是寒武纪的一个期望。一方面我们不能躺在以前的功劳薄上,还是要一步一步扎扎实实做研发,持续保持在整个人工智能处理器研发领域的领先性。另一方面,我们希望跟所有合作伙伴一同共建生态。
研究:从单核到多核深度学习处理器,再到通用机器学习处理器,体系结构研究方向明确,并且提出自己的指令集
寒武纪团队是深度学习处理器领域的先行者。在学术研究方面,2013年,寒武纪团队的早期成员和Inria的合作伙伴共同研发了全球首个深度学习处理器架构DianNao,这是在中科院计算所的时候的一个纯学术研究工作。2014年,我们和合作伙伴发布了全球首个多核深度学习处理器架构DaDianNao。2015年,发布了全球首个通用机器学习处理器架构PuDianNao。2016年,发布了低功耗视觉识别加速器ShiDianNao。
其中,DianNao获得了ASPLOS 2014的最佳论文奖,DaDianNao同年获得了MICRO最佳论文奖,一个科研团队同一年中在两个体系结构顶级会议上获得最佳论文奖,这在整个体系结构学术圈里是第一次,也是到目前为止唯一的一次。同时,大家可以看出在体系结构研究方面,我们的一个明确规划:从单核做到多核,再做到机器学习更通用的领域。
2016年还有一项更重要的工作,我们发布了全球首个智能处理器的指令集Cambricon ISA,这个对寒武纪来讲是一个标志性的工作。为什么呢?英特尔在通用PC、服务器领域,ARM在终端领域能够做得这么好,达到近乎垄断的地位,除了英特尔、ARM有自己好的架构、好的硬件,更为重要的是,英特尔和ARM都基于自己的指令集建立了一个广泛的生态,所有的开发者都在这个平台之上工作,包括操作系统和各类应用的开发,最终这个生态越铺越广,开发者及客户的黏度也越来越大。
寒武纪非常幸运,早期我们在智能处理器技术上做到了世界领先,所以在2016年我们有契机、有能力、也有信心推出了我们自己的指令集。我们的指令集是端云一体的,也就是说我们在端和云共用一套指令集。
商业:终端云端三款处理器IP产品,提出端云一体智能芯片战略
在商业上,2016年3月15日寒武纪科技公司成立,公司虽然很年轻,但我们从2008年开始就作为计算所的一个科研团队在做这方面的工作,所以,2016年公司刚刚成立时,我们就发布了全球首款商用深度学习处理器寒武纪1A。
2017年,寒武纪1A正式在产业界落地。前段时间发布的麒麟970中的重要NPU模块,就是寒武纪提供的技术,我们为全球首个AI手机芯片麒麟970插上了智慧之翼。
2017年,我们还发布了寒武纪1H16和1H8两款智能终端处理器的IP产品。如今的电子设备和很多智能终端,基本上每年甚至每半年都会更新,在这种情况之下,作为一个拥有智能处理器IP业务的公司,我们的产品也需要不停的迭代和优化。所以,1H16跟1A相比性能更强,功耗更低,支持的应用更加完备,可以同时处理视觉、语音、自然语言处理的任务,绝大部分的算法都可以在端上end-to-end支持。1H8则是我们针对图像识别和处理所设计的一款终端产品,它的处理性能跟1A比起来依然有大幅度的提升,但是成本更低,功耗更小。
2017年,我们还发布了云端智能处理芯片MLU的产品规划,天石总在发布会上也介绍了,MLU是机器学习处理器。我们的产品除了支持神经网络之外,还要支持更多的机器学习的算法。
基于我们端云统一的指令集,依托我们在终端和云端的产品,我们是唯一在全世界范围内有实力践行端云一体智能芯片策略的公司。这得益于我们终端产品的成熟,云端产品早期的规划,我们的指令集,以及我们大量软件人员做的很多底层的工作,比如编译器、库的优化、框架能向上兼容Caffe、TensorFlow、MXNet等等,将来会兼容Android NN。
寒武纪科技副总裁王在:端和云都重要,同等重要;任何事情都是对点、对面,然后再集中做整合,人工智能更是如此。
大家经常问我,你觉得到底是端重要还是云重要?我个人觉得这是一个非常好的问题,但答案也很明显,就像我们做公司一样,如果问一个公司的运营者,是市场部重要还是研发部重要?能不能砍掉一个?我觉得不能砍掉,两者同等重要。
新智元作为一个特别优秀的人工智能媒体,也是在做端云一体的事情。平时新智元对每家公司,包括我们在内,进行跟进交流,资源介绍,对我们进行报道,这是一对一的端的操作。而今天把大家聚在一块,就是在做云的事情。不论做任何事情都是对点、对面,然后再集中做整合,人工智能更是如此。
终端的重要性:用户最终一定是从终端感受到智能,智能应用必然走向端云一体协同处理
当然了,终端一定是在智能生态中具有非常重要的作用,有几个原因:
第一,终端的数量巨大。我相信大家在座的每一位手上都有手机或者其他的电子设备,全世界有几十亿的终端每天在运行。
第二,终端的应用高度多样化。除了图像、语音、理解,甚至包括游戏、VR,都是在端上大家平时用的比较多的一些应用。
第三,终端直接采集物理世界的信息。像我们的麦克风,像摄像头,都是作为信息的输入口。
第四,终端直接与用户交互。所以,无论智能处理是放在云还是放在端,首先它的入口一定是端,所以端的重要性也是显而易见的。
那么如何在终端支撑智能应用呢?先讲一个背景情况,以深度学习为代表的智能算法,无论在终端还是云端,运算量是巨大的,对高效、实时、经济的运算能力的需求是巨大的。现在很多算法公司也常问我们,你们的云端芯片什么时候出来?你们合作伙伴的终端芯片什么时候出来?
如果我们在终端做工作,思路无外乎有三种:
第一种,终端只负责采集数据,让云端去处理,把结果再还给终端。这时,终端只作为一个纯粹的输入口,把所有的重负荷工作都交给云端。这样做的优点是,在云端可以运行很复杂的模型。但缺点也是存在的,就是有延迟高和隐私泄露的风险。有些人说,随着5G的开放,可能这个问题会被解决。我个人倒是持一些保留的观点,因为无论怎样,总会有些特定的环境,比如自动驾驶进入山洞,总会存在网络的盲区。此外,隐私泄露的风险。比如家里有一个服务机器人,每天看着你,你说了什么东西,在家里干了什么事,它都把原始的视频或者是语音传到云端去,万一有泄露,后果就很严重。
第二种,终端采集数据,终端完全做处理,完全保障安全性,云端就不用了。这里面也有一个缺点,就是本地终端体积的大小所能容纳的硬件晶体管的数量是有限的,如果考虑处理能力,本地智能的性能肯定不能跟云端比。当然,这样做的优点是延迟小,而且隐私保护性非常好。
方法一和方法二从各个角度看都是既有优点又有缺点,没有找到一个完全没有缺点的方法。所以我们提出了第三种,最终终端和云端的交互应该终端采集数据,然后端云共同处理,把结果还给终端。这样做克服了以前缺点的同时带来了明显的优势:第一个是任务迁移比较方便,切分也比较灵活;第二是支持不同等级的隐私保护,比如我录的视频内容可以先做一些预处理,处理成一些加密的编码,这样就不会直接把信息泄露出去。我们认为经过一定阶段,最终必然会达到端云共同协作的形态。
寒武纪终端布局三部曲
寒武纪基于自己的指令集,做了端云一体的规划,所以在这个方面来讲,我们也很自豪,也很有信心,在将来整个的端云协作的各方面,不论从终端还是从云服务器端,寒武纪都能够给大家提供更好的服务。
前面讲的更多是思路上的事情,那么寒武纪具体打算怎么做呢?
第一阶段,我们首先要使终端具备更为强大的本地处理能力,比如我们的寒武纪1A率先进入麒麟970,我们的1H16和1H8将来也能够提供更好的性能和服务。
第二阶段,终端指令集与软硬件兼容的云端智能芯片,我们已经基于这个思路去规划和研发,我们的终端和云端是指令集一致的,我们的软件平台也是可以无缝移植的。
第三阶段,希望能够做到端云协同,为端云应用提供最佳的应用体验。最终我们会克服所有的缺点,比如隐私的泄露风险,在云端和终端之间灵活的调度和分配任务,让整个端云作为一个共同的整体更好的发挥效能。
总结一下,第一是终端对于智能处理的需求会不断增长,远远快过终端芯片在智能处理方面提升的速度——我们的合作伙伴每天跟我们说,你们有没有新一代产品?软件能不能优化一下?由此也能明显感受到,终端用户在终端想做很多事情,对整个计算需求也是要求很大。
第二,终端不是孤立存在的个体,智能处理必然经历从云到端,再从端到端云协作的过程。
第三,我们解决终端的智能处理问题,不能仅仅着眼于终端,应该将云端纳入考虑范畴,有效解决延迟,隐私等问题。
第四,端云一体的基础是指令集和软件兼容。需要芯片厂商和下游客户,甚至包括一些操作系统或者软件开发商大家一块共同协作。
寒武纪感谢大家的支持。一些朋友经常在讨论,谁才是人工智能生态里发展最快的企业,很多人的结论是新智元。再次感谢新智元,谢谢大家!
原文发布时间为:2017-11-16
本文作者:AI WORLD 2017
原文链接:寒武纪副总裁王在:解读陈天石“3年占领10亿终端”小目标和端云一体战略