AI产业核心研究:芯片四大流派论剑,中国能否弯道超车

 

编者按:本文来自微信公众号“腾讯研究院”(ID:cyberlawrc),作者张孝荣、殷竹馨;36氪经授权发布。 

随着AI产业快速突破,各大公司在AI领域的人才动向也在引起极大关注,你来我往、归去来兮,AI江湖上大有一片血雨腥风之势。当然,AI领军人物的变动,会对具体公司业务造成影响。但从整个行业来看,人才流动的频繁,反倒有可能促进产业的整体进程。

不信你翻翻历史。AI这门功夫自1956年问世以来,至今已经历60年风风雨雨,一直是流派众多,难学难练,没有大成。

难学,是因为必须要掌握一种叫做“算法”的神功;难练,是因为需要有足够算力,能够处理数据样本,训练机器。

几十年来,一直是有算法没算力,甚至于有人认为,人工智能就是一个科幻,就是小说家跟人类开的一个玩笑而已。谁也没想到,进入21世纪后算力大爆炸。引发了整个AI产业开天辟地般的变化。

其中,算法上升为天——深度学习,分成DBN,CNN,BP,RBM等等诸多分支,其中佼佼者当属CNN(convolutional neural networks),人称卷积神经网络,应用广泛。

算力,下降为地——AI芯片。各种芯片如雨后春笋涌现,拿过来训练机器,得心应手啊。

庙堂之上也为AI驾临人间雀跃不已。世界各国意识到人工智能的重要性,纷纷箪食壶浆,以迎AI。

联合国于2016年发布告示,召集人类讨论机器人的制造和使用如何促进人工智能的进步,以及可能带来的社会与伦理问题。

美国政府于2016年连续颁发三道金牌:《美国国家人工智能研发战略计划》、《为人工智能的未来做好准备》、《人工智能、自动化与经济报告》,宣称加入人工智能教派,并且描绘了此举能带来的种种美好的前景。

英国政府见此立即照方抓药,刊发了《机器人技术和人工智能》报告,详细的阐述英国的机器人技术与AI的亲密关系。

有算法有算力,天地已定。有政策有战略,和风细雨。正是产业萌芽,草长莺飞,欣欣向荣的时刻。人才的流动正是产业加速的信号。

书归正传。芯片定义了产业链和生态圈的基础计算架构,正如CPU是IT产业的核心一样,芯片也是人工智能产业的核心。

话说天下AI芯片共分四大流派:

GPU,目前锐气正盛,恰似东邪,凭借并行计算形成先发优势。

FPGA,蛰伏北方,正在暗地里合纵连横,大有号令群雄的势头,恰似丐帮。

ASIC,割据南方,占领了大片市场,参与的公司林立。

类脑芯片,这个更“邪性”,打算直接复制大脑,也暗藏着问鼎中原的野心。

根据互联网公开发布信息,今年,四大流派已经派出几十路高手,参与华山论剑,这些高手均属于芯片设计期高手。

这些高手都有什么特点?谁能逐鹿中原?下文一一分析。

GPU一派

市场上名气最大的应该是GPU一派。GPU,也称视觉处理器,专门用于图像及相关处理的芯片。

2012年,Alex Krizhevsky,多伦多大学的博士研究生,凭此在ImageNet大赛上夺下了2012届的冠军。Alex提出了一个奇妙的模型,仅凭借两个GPU就取得了训练深层神经网络的极佳效果。江湖顿时为之轰动,于是引发了GPU训练神经网络的风潮。要知道,AI领域过去曾用CPU处理数据,但CPU效力太低。

当年,谷歌曾经花费巨资购买1.6万个处理器,堆成谷歌大脑,峰值功耗在10万瓦以上,占地面积数十平方米。试问天下,有几人能玩的起1.6万个处理器?

随着 AlexNet的划时代论文横空出世,于是GPU 在服务器端横扫天下。

有人会问,CPU和GPU,都是处理器,两者有什么不同?

与CPU相比,GPU 出现得远比 CPU 晚,但并行计算能力能却常令CPU望尘莫及。并行计算是相对于串行计算来说的。要知道,自计算机诞生以来,电脑编程几乎一直都是串行计算,绝大多数的程序只存在一个进程或线程,好比一个人只能先吃饭再看聊天。

但更多人喜欢边吃饭边聊天怎么办?遇到这类问题,串行计算就傻眼了。并行计算一次可执行多个指令的算法,能够完美解决吃饭聊天难题。解决方式可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术,而空间上的并行则是指用众多个处理器并发的执行计算。

深度学习所依赖的是神经系统网络,通常网络越深,需要的训练时间越长。对于一些网络结构来说,如果使用串行的X86 处理器来训练的话,可能需要几个月、甚至几年,因此必须要使用并行甚至是异构并行的方法,才有可能让训练时间变得可以接受。

在当前的人工智能芯片领域,GPU的应用领域不容小觑,据Jon Peddie Research(简称JPR)市场调研公司统计,在2008至2015年期间,除了2008年GPU市场规模稍有下降,其余年份全球独立显卡的出货量和销售额都呈现出明显的上升趋势,并且在2012至2015年有加速上升的表现。

GPU领域只有两大公司,一是英伟达,占市场份额约7成,另一位则是万年老二AMD,占市场份额约3成。

从GPU用户数量来看,根据英伟达2016年的财务报告,相比2013年的100家,2014年的1549家,2015年已有3409家机构或企业使用英伟达的GPU产品,从事人工智能的研究。这些企业和机构包括各大高等院校的人工智能实验室,互联网企业,军事企业等。

AMD虽然落后于英伟达,但2016年的市场份额已呈现出上升趋势,在发布了代号Vega织女星的GPU芯片,市场一片叫好,未来可能有继续上升的趋势。

不足的是,GPU 的很费电(比如高端显卡动辄200W+),一旦开启,散热就成了麻烦事。

FPGA一帮

GPU美中不足的是就是太贵了,太贵了,而且有副作用,降温是大个问题。怎么办?

赛灵思等公司改进了FPGA许多技术,使之价格便宜功耗又很低,操练起来更有趣。于是,跟随FPGA的越来越多,形成了一大流派。

FPGA是从哪里来的呢?

原来早在1984年赛灵思就发布世界上首款FPGA,当时的FPGA晶片尺寸很大,但成本却不低。1992年后,FPGA因采用新工艺节点,第一次出现了在FPGA上实现卷积神经网络。但直到2000年后,FPGA丹法结合了“易容术”后才略有小成,易容术是指FPGA 已不仅是门阵列,还是集成有可编程逻辑的复杂功能集。2008以来,FPGA不光可以越来越多地整合系统模块,集成重要的控制功能,还可以使用更高效的系统编程语言,如OpenCL和C语言,通过类似软件的流程来编程,降低了硬件编程的难度。于是,自2011年开始,出现了大规模基于FPGA的算法研究。

简单来说,FPGA 全称“现场可编程门阵列”(Field Programmable GateArray),其基本原理是在 FPGA 芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过更新FPGA 配置文件,来定义这些门电路以及存储器之间的连线。

这里提及的“可编程”,完全就是“可变成”。这意味着你今天可以把 FPGA 配置成一个微控制器 MCU,明天就可以更新配置文件把同一个 FPGA 配置成一个音频编解码器。你是不是想起了孙悟空七十二变,今天是个老头明天是个少女?此乃易容术也。

不同于GPU的运行原理,FPGA是以门电路直接运算的,即编程中的语言在执行时会被翻译成电路,优势是运算速度快。

在很多领域FPGA的性能表现优异,以至于有人说FPGA可能会取代CPU和GPU成为将来机器人研发领域的主要芯片。当然,这事有点夸张。目前来看FPGA也多作为CPU的协处理器而出现,冲击GPU是显而易见的,但要说取代CPU,还得等等。

目前,国内有许多创业企业,自动加入FPGA阵营,提供基于FPGA的解决方案。比如源于清华大学的深鉴科技,专注于深度学习处理器与编译器技术,深鉴科技研发了一种名为“深度压缩”的技术,它不仅可以将神经网络压缩数十倍而不影响准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。

FPGA流派的厂商有两大两小,两大分别是赛灵思、Altera(英特尔于2015年以167亿美元收购Altera),两小是Lattice和Microsemi。

其中,赛灵思和Altera占据了近90%的市场份额,两人旗下的专利超过6000项。而剩下约10%的市场份额,由Microsemi和Lattice瓜分,这两位的专利也有3000余项。由此可以看出,极高的技术门槛将其它希望进入FPGA市场的厂商牢牢挡在门外。

FPGA也有两大局限性。

第一,FPGA的峰值性能不如GPU。即便使用高端的服务器做FPGA编译都会需要数分钟的时间,放到移动端速度还会更慢。但FPGA的功耗低于GPU,若FPGA的架构和配置合理,从能耗比的角度上来看,则能超过GPU。

第二,FPGA的编程难度较高。编程人员需要同时精通软件和硬件两种编程语言,更适合于高段位的的资深技术玩家。FPGA芯片主要面向企业客户,如百度、微软、IBM 等公司都有专门做FPGA的团队为服务器加速。

就未来发展来看,FPGA的崛起指日可待。理由有三个:

首先,在人工智能起步阶段,算法大致每三个月迭代一次,单凭这一点来说,FPGA可以灵活调整电路配置以适应新的算法,具有一定优势;

其次,相比于GPU,FPGA更适用于深度学习的应用阶段; 

最后,为了降低FPGA的编程难度,FPGA厂商赛灵思专门研发了可重配置加速栈堆,提供基于FPGA的硬件加速方案,这类似于一个App Store,赛灵思是一个平台,用户使用时直接从商店里挑选方案,不需要再自己设计布局布线了。 

ASIC:由吸星大法突破

虽然GPU在并行计算方面有不少优势,但毕竟不是为机器学习专门设计的,FPGA则是需要用户自主编程,主要面向专业领域的企业用户,门槛太高。

大众消费领域怎办?如应用到无人驾驶汽车上或是智能家居终端,这款芯片还要同时满足高性能和低功耗的要求,甚至不需要将数据传回服务器端,不必连入互联网,本地即时计算即可。

ASIC挺身而出。

ASIC的全称是专用集成电路 (Application-Specific Integrated Circuit)。

玩过比特币的都知道著名的挖矿大战。ASIC在比特币挖矿领域,展现出了得天独厚的优势。2013年1月Avalon项目团队交付了世界上第一台商用比特币ASIC矿机,轰动了挖矿世界。CPU、GPU矿机几乎在一夜之间消失的无影无踪,引发了比特币挖矿行业第二次重大升级,比特币网络核心开发者Jeff Garzik有幸成为了第一个商业ASIC矿机的拥有者,据说当时收到Avalon矿机的用户在一两天内就回了本。而传说中隐藏在农村的土豪,能动用的ASIC矿机达到了数千台。

人工智能深度学习和比特币挖矿有类似之处,都是依赖于底层的芯片进行大规模的并行计算。

ASIC分为全定制和半定制。全定制设计需要设计者完成所有电路的设计,因此需要大量人力物力,灵活性好但开发周期长,上市速度慢。专为机器学习设计的ASIC芯片,从设计到制造,对资金和技术的要求都更高。一般来说,基于FPGA的开发周期大约为六个月,而相同规格的ASIC则需要一年左右,需要经过多步验证,可想而知,在这样精细的打磨下,其性能自然也更为出色。

ASIC的开发时间长,意味着ASIC芯片很有可能赶不上市场变化的速度,致使厂商陷入竹篮打水一场空的尴尬境地。

有没有办法改进呢?

有。 

既然一家公司设计 ASIC要花费太花时间,何不用别人现成的模块呢? 

于是SoC+IP模式开始流行。这种模式有点像吸星大法。

SoC 全称是“片上系统(System-on-chip)”,亦即吸纳了许多不同模块的芯片。SoC 上面的每一个模块都可以称为 IP,这些 IP 既可以是自己设计的,也可以是购买其他公司的设计并整合到自己的芯片上。

相比ASIC,SoC+IP模式的上市时间短,成本较低,并且IP可以更灵活地满足用户需求。IP公司专注于IP模块的设计,SoC公司则专注于芯片集成,分工合作,提高效率。

事实上,高通已经在研发能在本地完成深度学习的移动设备芯片,IP设计公司如CEVA和Kneron也在研发与人工智能相关的IP核,这种模式未来也是人工智能芯片的发展方向之一。 

ASIC易学难练,要想大成,靡费巨资。因此玩ASIC的不乏豪门贵族。例如,谷歌于2016年推出可编程AI加速器TPU,英特尔也将于2017年推出专为深度学习设计的芯片Knights Mill。微软打造Project Catapult支持微软Bing。

从初创公司来看,美国的Wave Computing公司专注于深度学习芯片架构,推出DPU(Dataflow Processing Unit);英国的Graphcore公司将推出开源软件框架Poplar和智能处理单元IPU。

相比于科技巨头,初创企业更有可能结合具体应用场景设计芯片,如地平线机器人设计的第一代BPU(Brain Processing Unit),被用于开发ADAS系统。 

中科院计算所从2008年开始研究,项目名为寒武纪,主要经费来源是中科院先导专项和国家自然科学基金,负责人是陈氏兄弟,陈云霁和陈天石。目前,寒武纪系列已包含三种原型处理器结构:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);寒武纪2号(英文名DaDianNao,面向大规模神经网络);寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。 

类脑芯片:复制另一个人脑

类脑芯片不得不提IBM,每次产业变迁,IBM总要给大家带来一些新鲜名词热闹一番。比如电子商务、智慧星球,认知计算,现在又带来了号称要复制人脑的类脑芯片,科技真真太黑了。

IBM类脑芯片的后台支持者是美国国防部先进研究项目局(DARPA),DARPA是可谓科技圈的泰山北斗,大名鼎鼎的Internet前身阿帕网即源于这个机构。

DARPA与IBM合作建立了一个项目,名为“神经形态自适应伸缩可塑电子系统计划(SyNAPSE)”。该计划意图还原大脑的计算功能,从而制造出一种能够模拟人类的感觉,理解,行动与交流的能力的系统,用途非常明确:辅助士兵在战场动态复杂环境中的认知能力,用于无人武器的自动作战。

该项目中最引人注目的是类脑芯片TureNorth。2011年,IBM发布第一代TrueNorth芯片,它可以像大脑一样具有学习和信息处理能力,具有大规模并行计算能力。2014年,IBM发布第二代TrueNorth芯片,性能大幅提升,功耗却只有70毫瓦,神经元数量由256个增加到100万个,可编程突触由262144个增加到2.56亿个。高通也发布了Zeroth认知计算平台,它可以融入到高通Snapdragon处理器芯片中,以协处理方式提升系统认知计算性能,实际应用于终端设备上。

“正北”问世,激起了国内研究机构对人工智能的的热情。

上海的西井科技去年发布了全球首块5000万神经元类脑芯片。该公司宣称,这是目前世界上含有神经元数量最多的类脑芯片,也是首块可商用化类脑芯片。

去年6月,中星微宣布中国首款嵌入式神经网络处理器(NPU)芯片诞生,并已于实现量产,主要应用于嵌入式视频监控领域。

据说北京大学则研究另外一种路线——忆阻器。据媒体报道,北京大学在视听感知和图橡视频编码方面的研究处于国际领先水平,在利用神经形态芯片构造大规模神经网络方面,已经围绕视皮层模拟开展研究。

中科院陈云霁认为,总体上看,国内和IBM的TrueNorth芯片为代表的国际先进水平还存在一定的差距。这个差距不体现在单芯片绝对的运算速度上(事实上,国产类脑芯片每秒能进行的神经元运算和突触运算数量比TBM的TrueNorth还要高十倍),而是在功耗上。TrueNorth芯片功耗仅为65毫瓦,比国内芯片(15瓦左右)要低250倍。

从芯片性能角度来看,如今类脑芯片的算力和精度都不能超过GPU和FPGA的最好水平,因此类脑芯片是人工智能芯片几大方向中最小众的一类。

类脑芯片未来能否超越其它门派?这有赖于人类是否能完全搞清楚人脑的结构,能否有更多理论和实验支撑类脑芯片技术上的突破。就眼下来看,类脑芯片在商业化的道路上还需要探索一段时间。

华山论剑,中国能否弯道超车?

AI芯片是人工智能产业的演武场。

产业刚刚萌芽,东邪西毒南帝北丐均在赶往华山的路上,似乎大家都有当大英雄的机会。但是,如果从国别的角度来看,会发现一个残酷的现象。残酷,是因为中美两国存在着相当差距。比赛刚刚开始,美国就赢了。

在一些知名的芯片厂商中,美国有13家公司中,领军者既有谷歌、英特尔、IBM这样的科技巨头,也有高通、英伟达、AMD、赛灵思这样在各自领域中有绝对优势的大公司,以及一些发展良好的中等规模公司和活跃的初创企业。

但中国则主要以初创公司为主,没有巨头。其中七家企业中六家都是初创公司,均成立于近三年内,只有一家中等规模企业——中星微。 

从芯片类别来看,美国厂商遍布人工智能芯片的四大流派,IC设计环节的产业结构非常均衡,并且在GPU领域,美国企业是完全垄断的,中国为零;在FPGA领域,只能跟随赛灵思做解决方案;在ASIC领域,有些4家创业公司;类脑芯片,也有2家。 

芯片是数字经济的产业核心,历来是易守难攻,一旦形成先发优势,后来者很难超越。AI芯片也不例外。在过去十多年里,Intel、IBM、摩托罗拉、飞利浦、东芝、三星等60多家公司曾试图进军AI芯片,但纷纷遭致惨败。

这其中的原因就在于进入门槛高,主要有以下几点:

首先是专利技术壁垒。FPGA四公司用近9000项专利构筑了长长的知识产权壁垒,将进攻者拒于国门之外。即便是强如Intel也望而兴叹,不得以耗资167亿美元收买了Altera,获得了一张FPGA领域的门票。染指GPU就更不用提了。

其次是市场相对偏小。2016年全球FPGA市场总额仅为50亿美元,且有九成落入赛灵思和Altera两家公司,这么小的市场规模很难养活太多的大公司,必然导致竞争异常激烈。

最后是投资周期长。专利壁垒或许可以跨越,市场狭小,或许可以忍受。但是FPGA产品,从投入研发到产品真正规模化生产差不多要七年。这期间几乎没有任何商业回报。正常的风投是等不了这么长时间的。

AI时代论剑,芯片是核心。

AI芯片作为产业上游,也是技术要求和附加值最高的环节,产业价值和战略地位远远大于应用层创新,因此我们需要高度重视。

放眼时代变迁,CPU领域WINTEL联盟已经一统江山极难突破,而AI芯片方兴未艾,机遇正在逐渐显露,AI领域未来必然也会产生类似英特尔、AMD这样的世界级企业。

美国以绝对实力处于领先地位,但一批中国初创企业也在蓄势待发。

但是,AI芯片领域的创新绝不是件一蹴而就的事情。它涉及到人工智能算法、编程语言、计算机体系结构、集成电路技术、半导体工艺的方方面面。在巨大的国际竞争压力下,靠单个企业研发投入,远远不够;单靠有限的风险投资,也不行。靠科技补贴,更是远水解不了近渴。

我们如何相信中国企业有机会成为人工智能时代的弄潮儿,在AI芯片华山论剑之时占有一席之地呢?抱团创新可能会是未来实现突破的方向。AI领域创业空间巨大,所需资金规模巨大,所需资源巨大,单凭创业者个人和团队的能力打天下已经不现实, AI创业者需要跟产业加速器和产业资本密切结合,抱团创新,如此才能有更广阔的发展天地。

而笔者在对腾讯众创调研时了解到,目前许多国内创业企业已经学会了抱团创新,以长青腾创业营为例,开营100余天,40家创业公司总估值实现翻番,超过600亿,58%的学员顺利进入下一轮融资,100天融资总金额超过60亿。眼下,长青腾正在筹划AI创业营。

这对中国AI芯片创业是不是有所启示?

编者按:本文来自微信公众号“腾讯研究院”(ID:cyberlawrc),作者张孝荣、殷竹馨;36氪经授权发布。

随着AI产业快速突破,各大公司在AI领域的人才动向也在引起极大关注,你来我往、归去来兮,AI江湖上大有一片血雨腥风之势。当然,AI领军人物的变动,会对具体公司业务造成影响。但从整个行业来看,人才流动的频繁,反倒有可能促进产业的整体进程。

不信你翻翻历史。AI这门功夫自1956年问世以来,至今已经历60年风风雨雨,一直是流派众多,难学难练,没有大成。

难学,是因为必须要掌握一种叫做“算法”的神功;难练,是因为需要有足够算力,能够处理数据样本,训练机器。

几十年来,一直是有算法没算力,甚至于有人认为,人工智能就是一个科幻,就是小说家跟人类开的一个玩笑而已。谁也没想到,进入21世纪后算力大爆炸。引发了整个AI产业开天辟地般的变化。

其中,算法上升为天——深度学习,分成DBN,CNN,BP,RBM等等诸多分支,其中佼佼者当属CNN(convolutional neural networks),人称卷积神经网络,应用广泛。

算力,下降为地——AI芯片。各种芯片如雨后春笋涌现,拿过来训练机器,得心应手啊。

庙堂之上也为AI驾临人间雀跃不已。世界各国意识到人工智能的重要性,纷纷箪食壶浆,以迎AI。

联合国于2016年发布告示,召集人类讨论机器人的制造和使用如何促进人工智能的进步,以及可能带来的社会与伦理问题。

美国政府于2016年连续颁发三道金牌:《美国国家人工智能研发战略计划》、《为人工智能的未来做好准备》、《人工智能、自动化与经济报告》,宣称加入人工智能教派,并且描绘了此举能带来的种种美好的前景。

英国政府见此立即照方抓药,刊发了《机器人技术和人工智能》报告,详细的阐述英国的机器人技术与AI的亲密关系。

有算法有算力,天地已定。有政策有战略,和风细雨。正是产业萌芽,草长莺飞,欣欣向荣的时刻。人才的流动正是产业加速的信号。

书归正传。芯片定义了产业链和生态圈的基础计算架构,正如CPU是IT产业的核心一样,芯片也是人工智能产业的核心。

话说天下AI芯片共分四大流派:

GPU,目前锐气正盛,恰似东邪,凭借并行计算形成先发优势。

FPGA,蛰伏北方,正在暗地里合纵连横,大有号令群雄的势头,恰似丐帮。

ASIC,割据南方,占领了大片市场,参与的公司林立。

类脑芯片,这个更“邪性”,打算直接复制大脑,也暗藏着问鼎中原的野心。

根据互联网公开发布信息,今年,四大流派已经派出几十路高手,参与华山论剑,这些高手均属于芯片设计期高手。

这些高手都有什么特点?谁能逐鹿中原?下文一一分析。

GPU一派

市场上名气最大的应该是GPU一派。GPU,也称视觉处理器,专门用于图像及相关处理的芯片。

2012年,Alex Krizhevsky,多伦多大学的博士研究生,凭此在ImageNet大赛上夺下了2012届的冠军。Alex提出了一个奇妙的模型,仅凭借两个GPU就取得了训练深层神经网络的极佳效果。江湖顿时为之轰动,于是引发了GPU训练神经网络的风潮。要知道,AI领域过去曾用CPU处理数据,但CPU效力太低。

当年,谷歌曾经花费巨资购买1.6万个处理器,堆成谷歌大脑,峰值功耗在10万瓦以上,占地面积数十平方米。试问天下,有几人能玩的起1.6万个处理器?

随着 AlexNet的划时代论文横空出世,于是GPU 在服务器端横扫天下。

有人会问,CPU和GPU,都是处理器,两者有什么不同?

与CPU相比,GPU 出现得远比 CPU 晚,但并行计算能力能却常令CPU望尘莫及。并行计算是相对于串行计算来说的。要知道,自计算机诞生以来,电脑编程几乎一直都是串行计算,绝大多数的程序只存在一个进程或线程,好比一个人只能先吃饭再看聊天。

但更多人喜欢边吃饭边聊天怎么办?遇到这类问题,串行计算就傻眼了。并行计算一次可执行多个指令的算法,能够完美解决吃饭聊天难题。解决方式可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术,而空间上的并行则是指用众多个处理器并发的执行计算。

深度学习所依赖的是神经系统网络,通常网络越深,需要的训练时间越长。对于一些网络结构来说,如果使用串行的X86 处理器来训练的话,可能需要几个月、甚至几年,因此必须要使用并行甚至是异构并行的方法,才有可能让训练时间变得可以接受。

在当前的人工智能芯片领域,GPU的应用领域不容小觑,据Jon Peddie Research(简称JPR)市场调研公司统计,在2008至2015年期间,除了2008年GPU市场规模稍有下降,其余年份全球独立显卡的出货量和销售额都呈现出明显的上升趋势,并且在2012至2015年有加速上升的表现。

GPU领域只有两大公司,一是英伟达,占市场份额约7成,另一位则是万年老二AMD,占市场份额约3成。

从GPU用户数量来看,根据英伟达2016年的财务报告,相比2013年的100家,2014年的1549家,2015年已有3409家机构或企业使用英伟达的GPU产品,从事人工智能的研究。这些企业和机构包括各大高等院校的人工智能实验室,互联网企业,军事企业等。

AMD虽然落后于英伟达,但2016年的市场份额已呈现出上升趋势,在发布了代号Vega织女星的GPU芯片,市场一片叫好,未来可能有继续上升的趋势。

不足的是,GPU 的很费电(比如高端显卡动辄200W+),一旦开启,散热就成了麻烦事。

FPGA一帮

GPU美中不足的是就是太贵了,太贵了,而且有副作用,降温是大个问题。怎么办?

赛灵思等公司改进了FPGA许多技术,使之价格便宜功耗又很低,操练起来更有趣。于是,跟随FPGA的越来越多,形成了一大流派。

FPGA是从哪里来的呢?

原来早在1984年赛灵思就发布世界上首款FPGA,当时的FPGA晶片尺寸很大,但成本却不低。1992年后,FPGA因采用新工艺节点,第一次出现了在FPGA上实现卷积神经网络。但直到2000年后,FPGA丹法结合了“易容术”后才略有小成,易容术是指FPGA 已不仅是门阵列,还是集成有可编程逻辑的复杂功能集。2008以来,FPGA不光可以越来越多地整合系统模块,集成重要的控制功能,还可以使用更高效的系统编程语言,如OpenCL和C语言,通过类似软件的流程来编程,降低了硬件编程的难度。于是,自2011年开始,出现了大规模基于FPGA的算法研究。

简单来说,FPGA 全称“现场可编程门阵列”(Field Programmable GateArray),其基本原理是在 FPGA 芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过更新FPGA 配置文件,来定义这些门电路以及存储器之间的连线。

这里提及的“可编程”,完全就是“可变成”。这意味着你今天可以把 FPGA 配置成一个微控制器 MCU,明天就可以更新配置文件把同一个 FPGA 配置成一个音频编解码器。你是不是想起了孙悟空七十二变,今天是个老头明天是个少女?此乃易容术也。

不同于GPU的运行原理,FPGA是以门电路直接运算的,即编程中的语言在执行时会被翻译成电路,优势是运算速度快。

在很多领域FPGA的性能表现优异,以至于有人说FPGA可能会取代CPU和GPU成为将来机器人研发领域的主要芯片。当然,这事有点夸张。目前来看FPGA也多作为CPU的协处理器而出现,冲击GPU是显而易见的,但要说取代CPU,还得等等。

目前,国内有许多创业企业,自动加入FPGA阵营,提供基于FPGA的解决方案。比如源于清华大学的深鉴科技,专注于深度学习处理器与编译器技术,深鉴科技研发了一种名为“深度压缩”的技术,它不仅可以将神经网络压缩数十倍而不影响准确度,还可以使用“片上存储”来存储深度学习算法模型,减少内存读取,大幅度减少功耗。

FPGA流派的厂商有两大两小,两大分别是赛灵思、Altera(英特尔于2015年以167亿美元收购Altera),两小是Lattice和Microsemi。

其中,赛灵思和Altera占据了近90%的市场份额,两人旗下的专利超过6000项。而剩下约10%的市场份额,由Microsemi和Lattice瓜分,这两位的专利也有3000余项。由此可以看出,极高的技术门槛将其它希望进入FPGA市场的厂商牢牢挡在门外。

FPGA也有两大局限性。

第一,FPGA的峰值性能不如GPU。即便使用高端的服务器做FPGA编译都会需要数分钟的时间,放到移动端速度还会更慢。但FPGA的功耗低于GPU,若FPGA的架构和配置合理,从能耗比的角度上来看,则能超过GPU。

第二,FPGA的编程难度较高。编程人员需要同时精通软件和硬件两种编程语言,更适合于高段位的的资深技术玩家。FPGA芯片主要面向企业客户,如百度、微软、IBM 等公司都有专门做FPGA的团队为服务器加速。

就未来发展来看,FPGA的崛起指日可待。理由有三个:

首先,在人工智能起步阶段,算法大致每三个月迭代一次,单凭这一点来说,FPGA可以灵活调整电路配置以适应新的算法,具有一定优势;

其次,相比于GPU,FPGA更适用于深度学习的应用阶段;

最后,为了降低FPGA的编程难度,FPGA厂商赛灵思专门研发了可重配置加速栈堆,提供基于FPGA的硬件加速方案,这类似于一个App Store,赛灵思是一个平台,用户使用时直接从商店里挑选方案,不需要再自己设计布局布线了。

ASIC:由吸星大法突破

虽然GPU在并行计算方面有不少优势,但毕竟不是为机器学习专门设计的,FPGA则是需要用户自主编程,主要面向专业领域的企业用户,门槛太高。

大众消费领域怎办?如应用到无人驾驶汽车上或是智能家居终端,这款芯片还要同时满足高性能和低功耗的要求,甚至不需要将数据传回服务器端,不必连入互联网,本地即时计算即可。

ASIC挺身而出。

ASIC的全称是专用集成电路 (Application-Specific Integrated Circuit)。

玩过比特币的都知道著名的挖矿大战。ASIC在比特币挖矿领域,展现出了得天独厚的优势。2013年1月Avalon项目团队交付了世界上第一台商用比特币ASIC矿机,轰动了挖矿世界。CPU、GPU矿机几乎在一夜之间消失的无影无踪,引发了比特币挖矿行业第二次重大升级,比特币网络核心开发者Jeff Garzik有幸成为了第一个商业ASIC矿机的拥有者,据说当时收到Avalon矿机的用户在一两天内就回了本。而传说中隐藏在农村的土豪,能动用的ASIC矿机达到了数千台。

人工智能深度学习和比特币挖矿有类似之处,都是依赖于底层的芯片进行大规模的并行计算。

ASIC分为全定制和半定制。全定制设计需要设计者完成所有电路的设计,因此需要大量人力物力,灵活性好但开发周期长,上市速度慢。专为机器学习设计的ASIC芯片,从设计到制造,对资金和技术的要求都更高。一般来说,基于FPGA的开发周期大约为六个月,而相同规格的ASIC则需要一年左右,需要经过多步验证,可想而知,在这样精细的打磨下,其性能自然也更为出色。

ASIC的开发时间长,意味着ASIC芯片很有可能赶不上市场变化的速度,致使厂商陷入竹篮打水一场空的尴尬境地。

有没有办法改进呢?

有。

既然一家公司设计 ASIC要花费太花时间,何不用别人现成的模块呢?

于是SoC+IP模式开始流行。这种模式有点像吸星大法。

SoC 全称是“片上系统(System-on-chip)”,亦即吸纳了许多不同模块的芯片。SoC 上面的每一个模块都可以称为 IP,这些 IP 既可以是自己设计的,也可以是购买其他公司的设计并整合到自己的芯片上。

相比ASIC,SoC+IP模式的上市时间短,成本较低,并且IP可以更灵活地满足用户需求。IP公司专注于IP模块的设计,SoC公司则专注于芯片集成,分工合作,提高效率。

事实上,高通已经在研发能在本地完成深度学习的移动设备芯片,IP设计公司如CEVA和Kneron也在研发与人工智能相关的IP核,这种模式未来也是人工智能芯片的发展方向之一。

ASIC易学难练,要想大成,靡费巨资。因此玩ASIC的不乏豪门贵族。例如,谷歌于2016年推出可编程AI加速器TPU,英特尔也将于2017年推出专为深度学习设计的芯片Knights Mill。微软打造Project Catapult支持微软Bing。

从初创公司来看,美国的Wave Computing公司专注于深度学习芯片架构,推出DPU(Dataflow Processing Unit);英国的Graphcore公司将推出开源软件框架Poplar和智能处理单元IPU。

相比于科技巨头,初创企业更有可能结合具体应用场景设计芯片,如地平线机器人设计的第一代BPU(Brain Processing Unit),被用于开发ADAS系统。

中科院计算所从2008年开始研究,项目名为寒武纪,主要经费来源是中科院先导专项和国家自然科学基金,负责人是陈氏兄弟,陈云霁和陈天石。目前,寒武纪系列已包含三种原型处理器结构:寒武纪1号(英文名DianNao,面向神经网络的原型处理器结构);寒武纪2号(英文名DaDianNao,面向大规模神经网络);寒武纪3号(英文名PuDianNao,面向多种机器学习算法)。

类脑芯片:复制另一个人脑

类脑芯片不得不提IBM,每次产业变迁,IBM总要给大家带来一些新鲜名词热闹一番。比如电子商务、智慧星球,认知计算,现在又带来了号称要复制人脑的类脑芯片,科技真真太黑了。

IBM类脑芯片的后台支持者是美国国防部先进研究项目局(DARPA),DARPA是可谓科技圈的泰山北斗,大名鼎鼎的Internet前身阿帕网即源于这个机构。

DARPA与IBM合作建立了一个项目,名为“神经形态自适应伸缩可塑电子系统计划(SyNAPSE)”。该计划意图还原大脑的计算功能,从而制造出一种能够模拟人类的感觉,理解,行动与交流的能力的系统,用途非常明确:辅助士兵在战场动态复杂环境中的认知能力,用于无人武器的自动作战。

该项目中最引人注目的是类脑芯片TureNorth。2011年,IBM发布第一代TrueNorth芯片,它可以像大脑一样具有学习和信息处理能力,具有大规模并行计算能力。2014年,IBM发布第二代TrueNorth芯片,性能大幅提升,功耗却只有70毫瓦,神经元数量由256个增加到100万个,可编程突触由262144个增加到2.56亿个。高通也发布了Zeroth认知计算平台,它可以融入到高通Snapdragon处理器芯片中,以协处理方式提升系统认知计算性能,实际应用于终端设备上。

“正北”问世,激起了国内研究机构对人工智能的的热情。

上海的西井科技去年发布了全球首块5000万神经元类脑芯片。该公司宣称,这是目前世界上含有神经元数量最多的类脑芯片,也是首块可商用化类脑芯片。

去年6月,中星微宣布中国首款嵌入式神经网络处理器(NPU)芯片诞生,并已于实现量产,主要应用于嵌入式视频监控领域。

据说北京大学则研究另外一种路线——忆阻器。据媒体报道,北京大学在视听感知和图橡视频编码方面的研究处于国际领先水平,在利用神经形态芯片构造大规模神经网络方面,已经围绕视皮层模拟开展研究。

中科院陈云霁认为,总体上看,国内和IBM的TrueNorth芯片为代表的国际先进水平还存在一定的差距。这个差距不体现在单芯片绝对的运算速度上(事实上,国产类脑芯片每秒能进行的神经元运算和突触运算数量比TBM的TrueNorth还要高十倍),而是在功耗上。TrueNorth芯片功耗仅为65毫瓦,比国内芯片(15瓦左右)要低250倍。

从芯片性能角度来看,如今类脑芯片的算力和精度都不能超过GPU和FPGA的最好水平,因此类脑芯片是人工智能芯片几大方向中最小众的一类。

类脑芯片未来能否超越其它门派?这有赖于人类是否能完全搞清楚人脑的结构,能否有更多理论和实验支撑类脑芯片技术上的突破。就眼下来看,类脑芯片在商业化的道路上还需要探索一段时间。

华山论剑,中国能否弯道超车?

AI芯片是人工智能产业的演武场。

产业刚刚萌芽,东邪西毒南帝北丐均在赶往华山的路上,似乎大家都有当大英雄的机会。但是,如果从国别的角度来看,会发现一个残酷的现象。残酷,是因为中美两国存在着相当差距。比赛刚刚开始,美国就赢了。

在一些知名的芯片厂商中,美国有13家公司中,领军者既有谷歌、英特尔、IBM这样的科技巨头,也有高通、英伟达、AMD、赛灵思这样在各自领域中有绝对优势的大公司,以及一些发展良好的中等规模公司和活跃的初创企业。

但中国则主要以初创公司为主,没有巨头。其中七家企业中六家都是初创公司,均成立于近三年内,只有一家中等规模企业——中星微。

从芯片类别来看,美国厂商遍布人工智能芯片的四大流派,IC设计环节的产业结构非常均衡,并且在GPU领域,美国企业是完全垄断的,中国为零;在FPGA领域,只能跟随赛灵思做解决方案;在ASIC领域,有些4家创业公司;类脑芯片,也有2家。

芯片是数字经济的产业核心,历来是易守难攻,一旦形成先发优势,后来者很难超越。AI芯片也不例外。在过去十多年里,Intel、IBM、摩托罗拉、飞利浦、东芝、三星等60多家公司曾试图进军AI芯片,但纷纷遭致惨败。

这其中的原因就在于进入门槛高,主要有以下几点:

首先是专利技术壁垒。FPGA四公司用近9000项专利构筑了长长的知识产权壁垒,将进攻者拒于国门之外。即便是强如Intel也望而兴叹,不得以耗资167亿美元收买了Altera,获得了一张FPGA领域的门票。染指GPU就更不用提了。

其次是市场相对偏小。2016年全球FPGA市场总额仅为50亿美元,且有九成落入赛灵思和Altera两家公司,这么小的市场规模很难养活太多的大公司,必然导致竞争异常激烈。

最后是投资周期长。专利壁垒或许可以跨越,市场狭小,或许可以忍受。但是FPGA产品,从投入研发到产品真正规模化生产差不多要七年。这期间几乎没有任何商业回报。正常的风投是等不了这么长时间的。

AI时代论剑,芯片是核心。

AI芯片作为产业上游,也是技术要求和附加值最高的环节,产业价值和战略地位远远大于应用层创新,因此我们需要高度重视。

放眼时代变迁,CPU领域WINTEL联盟已经一统江山极难突破,而AI芯片方兴未艾,机遇正在逐渐显露,AI领域未来必然也会产生类似英特尔、AMD这样的世界级企业。

美国以绝对实力处于领先地位,但一批中国初创企业也在蓄势待发。

但是,AI芯片领域的创新绝不是件一蹴而就的事情。它涉及到人工智能算法、编程语言、计算机体系结构、集成电路技术、半导体工艺的方方面面。在巨大的国际竞争压力下,靠单个企业研发投入,远远不够;单靠有限的风险投资,也不行。靠科技补贴,更是远水解不了近渴。

我们如何相信中国企业有机会成为人工智能时代的弄潮儿,在AI芯片华山论剑之时占有一席之地呢?抱团创新可能会是未来实现突破的方向。AI领域创业空间巨大,所需资金规模巨大,所需资源巨大,单凭创业者个人和团队的能力打天下已经不现实, AI创业者需要跟产业加速器和产业资本密切结合,抱团创新,如此才能有更广阔的发展天地。

而笔者在对腾讯众创调研时了解到,目前许多国内创业企业已经学会了抱团创新,以长青腾创业营为例,开营100余天,40家创业公司总估值实现翻番,超过600亿,58%的学员顺利进入下一轮融资,100天融资总金额超过60亿。眼下,长青腾正在筹划AI创业营。

这对中国AI芯片创业是不是有所启示?

   

 

  

本文转自d1net(转载)

时间: 2024-10-09 08:17:10

AI产业核心研究:芯片四大流派论剑,中国能否弯道超车的相关文章

清华教授:可重构计算芯片将助"中国芯"弯道超车

"可重构计算芯片技术是集成电路领域非常有希望的差异化技术,具有广泛适用性."在中国工程院主办,西安交通大学和中国工程院信息与电子工程学部共同承办的国际工程科技发展战略高端论坛上,清华大学微电子学研究所所长魏少军教授表示,其团队已经和清华紫光等企业合作,预计在明后年能将可重构计算芯片产品正式推向市场. 魏少军介绍,以专用集成电路为代表的专用计算根据特定的应用来定制电路结构,其执行速度快.功耗小.成本低,却有一个致命缺陷--灵活性和拓展性差.针对不同应用需要设计不同的芯片,设计周期长,投入

专访寒武纪CEO陈天石:AI芯片是中国主导世界AI产业的机会

上周五出了个大新闻--国内AI芯片创业公司寒武纪科技(Cambricon)完成了A轮融资,融资总额达到1亿美元.除了数额,本轮融资的参与者同样抢眼:领投方国投创业(国投集团子公司),阿里巴巴.联想.国科投资.中科图灵加入,原pre-A轮投资方,元禾原点创投.涌铧投资继续跟投. 雷锋网也向寒武纪进行了求证,确认寒武纪已经成为全球AI芯片中的第一只独角兽创业公司. 寒武纪板卡 作为全球第一个成功流片(批量生产实物芯片)的AI芯片公司,寒武纪在2016年就已经发布了"寒武纪1A"深度学习专用

腾讯研究院发布《中美两国人工智能产业发展全面解读》:中国AI产业将迎来泡沫?(附全文PDF下载)

雷锋网AI科技评论按:谈起AI,中国有理由感到自豪,在人工智能领域发表的论文数量排名世界第一:在数理基础研究领域,集聚了大量人才:在语音识别.人脸识别,以及自然语音识别等技术,我们已经走在了世界前列.但这些已经够了么? 当下,中美两国虽同属AI领域第一梯队,但美国AI整体实力却是公认的全球第一.中国和美国的差距又是在哪里? 顶层战略和美相似,基础研究和应用落后 美国和中国政府都把人工智能当作未来战略的主导,出台发展战略规划,从国家战略层面进行整体推进.美国人工智能报告体现了美国政府对新时代维持自

Marvell李廷伟:产品核心研究落地中国

[搜狐IT消息] 9月19日消息,2012年中国国际信息通信展览会19日进入到第二天,Marvell副总裁.中国业务总经理李廷伟介绍,Marvell每年出货10亿枚芯片,从端到端都有很好的布局.李廷伟表示,Marvell是外资芯片厂商中本地化最好的一家,核心平台的研发都是在中国做.包括TD整个的核心研发团队都在中国,分布在上海.北京.深圳.合肥."Marvell是最早投入TD芯片研发的企业,经过这几年的努力,TD的智能终端不是一个瓶颈,甚至在有些方面超过其他两个3G标准.这两年TD在网络的覆盖方

我国大数据产业核心集聚区隐现

国家发改委.工信部.中央网信办.科技部.商务部等部门领导,三大运营企业.华为.中兴.阿里巴巴.腾讯.曙光.浪潮等信息通信企业巨头集体亮相北京国家会议中心,出席高规格的内蒙古大数据产业推介会.内蒙古自治区党委书记李纪恒笃定地说:"发展大数据.云计算,众里寻他千百度,蓦然回首,最佳就在内蒙古!"工信部副部长怀进鹏热情洋溢地指出,大数据在不同产业和细分领域都出现重要的市场机遇,要把握信息通信产业创新加速转型时机,实现大数据产业的创新突破. 仅仅一个月前,国家发展改革委.工信部.中央网信办共同

《中国人工智能学会通讯》——12.20 核心研究问题与研究现状任务分配

12.20 核心研究问题与研究现状任务分配 任务分配指时空众包平台根据任务和参与者的时空属性和其他相关信息,为每个任务分配适当的众包参与者.现存研究根据不同应用场景下任务分配的具体需求,通常采用二分图匹配模型和任务规划模型这两种算法模型对该问题进行建模. (1)基于匹配的分配模型 在每次为众包参与者分配一项任务的应用场景下,如滴滴出行等专车类服务,可使用基于匹配的分配模型.具体而言,该模型将任务分配问题规约为最大化或最小化加权二分图匹配问题[20] .根据任务实时性要求的差异,该模型又可分为静态

浪潮集团发布大数据整体战略 提升产业核心竞争力

我国IT产业骨干企业浪潮集团日前正式发布大数据整体战略,以推动中国大数据产业的行业化应用.浪潮同时也发布了国内首套采用全新技术架构的大数据处理平台产品. 据权威研究报告显示,中国大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍.浪潮集团高级副总裁王恩东在当天的发布会表示,大数据是信息产业领域内最具发展潜力的产业,基于中国所拥有的全球最大的人口基数和实际需求,中国将形成全球最具潜力的大数据市场. 对此,工业和信息化部

“学华为”造芯片,小米离“中国芯”有多远?

一个造手机卖手机的,干了6年多,突然从兜里掏出一块芯片,告诉你,我们不仅造手机,还能造芯片了.这样的芯片和手机,你买不买?2月底,小米公司正式发布旗下松果公司自主研发的系统级芯片(System on a Chip,缩写SoC)"澎湃S1",搭载该芯片的首款手机小米5C也同步亮相,小米由此成为全球继三星.苹果.华为之后第四家同时拥有终端及芯片研发制造能力的手机厂商.然而,"澎湃S1"发布前后的一系列巧合,却让小米显得有些被动.先是MWC 2017大会上,高通最新旗舰芯

工信部副部长陈肇雄四大层面解读中国云计算大会

本文讲的是工信部副部长陈肇雄四大层面解读中国云计算大会[IT168 资讯]2017年6月14日,工业和信息化部副部长陈肇雄出席第九届中国云计算大会并致辞. 陈肇雄充分肯定了我国云计算领域的科技工作者和企业家对我国云计算技术和产业发展做出的努力和贡献,并对我国云计算未来工作提出了殷切期望:一要提升云计算核心技术能力;二要加强云服务平台建设;三要深入推进云行业应用;四要强化云安全保障. 以下为陈肇雄现场致辞实录: 尊敬的吴基传部长,尊敬的各位院士.各位专家.各位来宾,女士们.先生们,大家好!首先,我