人工智能历经风雨二十载 AI专用芯片成蓝海

正如20年前多媒体应用及3D游戏蓬勃发展倒逼显卡硬件升级一样,互联网大数据的兴起对超算芯片提出了新的需求。

事实上,AI界的泰斗,加拿大多伦多大学的Hiton教授早在2006年就提出了深度学习的概念,浅层学习算法更是早在上世纪80年代就为学术界所广泛认可。之所以最近几年该领域应用才逐渐升温,是因为AI的发展离不开两方面的支持,大数据和计算资源。

一、从“深蓝”到“AlphaGO”,人工智能走过二十年

距离1996年“深蓝”大战卡斯帕罗夫整整20年后,“AlphaGO”再次通过人机对战的形式为人工智能的发展历史添上了浓重一笔。站在今天,我们可以笑言那曾经令人瞠目结舌的“深蓝”实际上只是一个运行于超级计算机上的一个很棒的国际象棋程序,而为了支撑这个程序,IBM团队打造了一台重1.2吨、配备480颗国际象棋专用芯片的庞然大物。

不同于“深蓝”依靠超强运算能力所采取的遍历搜索策略,“AlphaGO”的设计中融入了近年来取得显著进展的深度学习算法。深度学习之所以被称为“深度”,是相对前向误差反馈神经网络、支持向量机等浅层学习算法而言。后者的局限性在于有限样本和计算单元情况下,对复杂函数的表示能力有限,且需要依靠人工经验抽取样本特征。深度学习算法则通过构建一种深层非线性网络结构来实现复杂函数逼近及自动特征提取,具有强大的从少数样本集中挖掘数据统计规律的能力。

在基于深度学习方法的人脸识别领域,2014年,Facebook公司的DeepFace项目以及香港中文大学的DeepID项目在户外人脸识别数据库上的识别正确率分别达到97.45%和97.35%,几乎可以比肩人类97.5%的识别率。此外,在图像分类、自然语音识别等领域,深度学习也已证明了其无可比拟的优势,特别是在现存最复杂的完全信息博弈之一的围棋上的成功,说明该算法还大有潜力可挖。

关于AlphaGO还有个不为人知的小插曲。在对战李世石之前,AlphaGO曾于2016年1月以5:0的悬殊比分完胜欧洲围棋冠军樊麾二段。旁观的李世石在比赛结束后表示有信心捍卫人类在棋类运动上最后的荣誉。然而短短的一个月时间内,Google将AlphaGO的核心运算单元从CPUGPU换成了专门的深度学习芯片。于是,我们看到了“石佛”尴尬的笑容和发抖的手指。

二、脱离硬件支持,深度学习只能是“屠龙之技”

事实上,AI界的泰斗,加拿大多伦多大学的Hiton教授早在2006年就提出了深度学习的概念,浅层学习算法更是早在上世纪80年代就为学术界所广泛认可。之所以最近几年该领域应用才逐渐升温,是因为AI的发展离不开两方面的支持,大数据和计算资源。

深度学习模型需要通过大量的数据训练才能获得理想的效果。以语音识别问题为例,仅在其声学建模部分,算法就面临着十亿到千亿级别的训练样本。在这种情况下,只有表达能力强的数学模型才能够充分发掘海量数据中蕴藏的丰富信息。相应地,海量数据的运算处理也必须有强大的计算资源作为支撑。

举个毫不夸张的例子,今天的计算机一个中小型网络的训练需要一天时间,可能使用20年前的计算机需要近20年才能完成。因此,即便深度学习算法早20年诞生,没有硬件匹配也只能是屠龙之技。而即便是今天,AI相关硬件的发展仍远落后于软件算法。一方面,AI界的算法大牛实在太多,甩开摩尔定律数十年来笔耕不辍地升级着软件;另一方面,当前执行深度学习算法的主流方式是采用GPU芯片,为深度学习算法专门定制的芯片还远没有形成规模。虽然从架构上看,GPU相比CPU更有效率,但是离最优还相距甚远。而且GPU功耗惊人,很难委身于移动终端,更遑论物联网应用。

三、云端“高吞吐”,本地“小快灵”

目前的AI应用主要分为用于服务器端和用于移动终端两大类。服务器端的负责AI算法的芯片一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持高精度浮点数运算,峰值性能至少要达到Tflops(每秒执行10^12次浮点数运算)级别,所以功耗非常大(>200W);而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算)。由于服务器端的AI芯片必须兼顾通用性,因此性能优化无法做到量体裁衣,只能做一些宏观的优化。

现有的主流服务器端的硬件加速器以图形处理器和现场可编程逻辑门阵列为主。GPU具有强大的浮点运算能力,因此除图像处理的本职工作外,被广泛应用于科学计算、密码破解、数值分析,海量数据处理等需要大规模并行计算的领域。与GPU相比,FPGA器件虽然在计算运行速度上与ASIC芯片有所差距,产品更新换代的速度也要慢于GPU芯片;但是功耗仅仅是GPU的1/10,并且还可以通过重配置对目标应用进行最大限度的优化。除了FPGA和GPU之外,也有不少公司在做服务器端的深度学习加速芯片,例如Google的TPU、Intel的 Nervana System以及Wave Computing等等。

移动端的AI芯片和服务器端的AI芯片在设计思路上有着本质的区别。首先,移动端的AI芯片必须满足低延迟要求。这里的延迟是指移动终端与云端或服务器端的通信延迟。以大家熟悉的siri应用为例,移动终端把语音数据上传至云端,云端执行算法并把结果送回移动端,这当然要求网络延迟尽可能小以提升用户体验。而在驾驶辅助、安防监控等对实时性要求极为严苛的应用场景下,低延迟的重要性更是无需赘言;其次,移动端AI芯片必须保证功耗控制在一定范围内,换言之,必须保证很高的计算能效;最后,移动端AI应用对算法的性能要求不如服务器端苛刻,允许一些计算精度损失,因此可以使用一些定点数运算以及网络压缩的办法来加速运算。而如果从另一个角度看,把所有数据传回云端一方面有可能造成网络的拥堵,另一方面存在数据安全问题,一旦数据在传输过程中被恶意劫持,后果将无法想象。因此,一个必然的趋势是在移动端本地分担部分快速反应的AI算法,从而尽量避免上述问题。

四、AI专用芯片,业界巨头们的蓝海

正如20年前多媒体应用及3D游戏蓬勃发展倒逼显卡硬件升级一样,互联网大数据的兴起对超算芯片提出了新的需求。如前所述,GPU和FPGA是目前软件企业采取的主流方案。百度的机器学习硬件系统就是用FPGA搭建了一款AI专用芯片,并已大规模部署在语音识别、广告点击率预估模型等应用中;而语音识别领域的科大讯飞,则将几乎所有深度学习训练方面的运算都放在GPU加速卡上运行。不过业界也有消息,科大讯飞计划在语音识别业务中启用FPGA平台。

作为GPU和FPGA领域的巨头,Nvidia和Intel已相继公布了开发AI专用芯片的计划。2016年上半年,NVIDIA为深度神经网络推出了TeslaP100GPU,并基于此开发了深度学习超级计算机NVIDIADGX-1。与此同时,IBM已与NVIDIA推出了几款专门针对人工智能领域的服务器产品。而收购了FPGA巨头Altera公司的Intel也不甘落后,结合FPGA在大数据运算处理方面的优势,全力打造新的专注大数据高性能运算以及AI应用的至强融合系列处理器。

此外,Intel还于2016年8月宣布收购深度学习芯片初创公司Nervana,以增强Intel在AI方面的业务能力。目前,芯片层面最大的变数来自于Google的TPU芯片。这款芯片是Google专门为其深度神经网络的软件驱动引擎TensorFlow量身打造的。谷歌表示,按照摩尔定律的发展轨迹,现在的TPU的计算能力相当于未来七年才能达到的计算水平。目前,TPU已经服务于Google的AI系统Rank Brain、街景Street View、Alpha GO等应用服务。

TPU的高效能来自于Google专门为AI应用做出的针对性优化。在效能与功耗上TPU能够更紧密地适配机器学习算法,这一点要远胜于GPU及FPGA等通用芯片。从性能角度而言,目前针对某个算法优化的专用AI芯片能比GPU在性能上提升多少还未有定论,这也要结合具体算法来看。如果GPU刚好卡到某个瓶颈,那么AI芯片在运算速度上提升几十倍也是有可能的。AI算法始终保持着快速演进的趋势,因此专用AI芯片的发展一定与软件是并行互补的。

从成本角度来看,任何芯片一旦量产,成本都会迅速下降。就服务器端的AI芯片而言,首先量肯定不如移动市场大;其次由于强调运算性能,导致其技术壁垒较高,新的竞争者难以快速切入。目前来看AI芯片基本没有创业机会。流片在千万美元级别,全世界的玩家屈指可数。而所有巨头又都盯着AI这块巨大的蛋糕,因此在该领域基本不可能有搅局者的出现。AI虽然是蓝海,但只是大公司的蓝海。

本文转自d1net(转载)

时间: 2024-08-29 12:57:25

人工智能历经风雨二十载 AI专用芯片成蓝海的相关文章

“经济名片”回归背后合肥荣事达三洋的二十载蜕变

近日,中国传奇家电品牌"荣事达"的商标使用权终于尘埃落定,未来的5年内,产自合肥荣事达三洋电器股份有限公司的荣事达牌电冰箱.洗衣机和微波炉,将登陆到国内家电市场,重新续写这一承载了一代人记忆的品牌神话.对于合肥家电产业乃至整个安徽省来说,"荣事达"曾经担当的使命,绝非一家普通的电器公司所具有的.一句响彻大江南北的广告语--"荣事达·时代潮",代表着90年代中整个家电产业的新浪潮.2006年,中国品牌研究院对全国各省评选标志性品牌进行评选,作为&q

第三方支付血拼十年断臂转型寻找新蓝海

文/詹晨"第三方支付在 中国市场血拼了十年,最后拼得都无法生存下去."汇付天下有限公司旗下子公司汇付金融总裁刘钢对界面新闻记者表示.2011年之前,支付业还是只有支付宝.汇付天下.快钱.银联商务等几家大巨头的行业,但从央行2011年发牌算起,短短3年内第三方支付企业已经近300家,其中一半以上有POS收单业务.截至2014年年末,包括BAT在内的国内获第三方支付牌照企业增至269家,支付行业面临业务单一.同质化竞争严重的局面:另一方面,监管部门对行业的违规处罚更加严厉.2014年可以说

成龙远离厨房二十载演“煮饭僧”耍炒菜揉面功

"煮饭僧"耍炒菜揉面功 在1月19日即将上映的新春贺岁大片<新少林寺>中,成龙与刘德华.谢霆锋.范冰冰携手出演.不过,这次大哥并不是担纲主演,而是客串出演了一个伙头僧.成龙在接受专访时表示,其实当初他也是主演之一,实在是因为有太多其它的原因,所以才不得不忍痛割爱.没能主演<新少林寺>虽然成为一大遗憾,但成龙表示,片中扮演伙头僧的自己更大的遗憾是没有给儿子房祖名做过一顿饭. 客串一样可以抢戏 记者:陈木胜导演曾经说过,这部电影原本找你主演? 成龙:导演告诉我这个故

告别雅虎:巨人的黄昏 二十载兴亡

从千亿美元到开架出售 记得2000年的时候,有部热卖的香港爱情片<孤男寡女>:是由刘德华和郑秀文演绎的办公室恋情.情节什么的并不重要,但还记得有一个年轻帅气的美籍华裔小伙向郑秀文求婚:电影里介绍其在美国开办互联网公司而成为亿万富翁. 显然,这个角色的原型是雅虎联合创始人杨致远.那个时候,雅虎市值高达1280亿美元,正是巅峰时期.杨致远是全球华人以及科技界仰望的新偶像,其影响力丝毫不亚于现在的扎克伯格.或许,那个时代雅虎在全球互联网乃至硅谷的份量,甚至还要胜于现在的Facebook,只有谷歌可以

黑帽大会二十载:十大最佳破解案例

在过去20年里,黑帽大会曾捅出许多重大的漏洞,促成了一些重大的补丁.这些漏洞展现了现代医疗设备.ATM.汽车.路由器.手机等方面面临的安全挑战.第二十届黑帽大会今天下午在拉斯维加斯开幕.为了庆祝黑帽大会,笔者从大会历史里选编了二十年来黑帽大会展示的一些最佳.最恐怖的破解案例. 汽车破解 2015年,黑帽人士查理·米勒和克里斯·瓦拉塞克(Chris Valasek)(上图)成功黑进切诺基吉普(Jeep Cherokee)系统,厂方随之召回140万辆汽车打软件补丁.该破解用了切诺基吉普汽车里的Uco

麦肯锡:潜力巨大,障碍多多,人工智能医疗是蓝海还是虚火?

日前,麦肯锡全球研究所发布了<人工智能:下一个数字前沿>的报告,分析了当前大热的人工智能实际落地情况和发展前景,主要集中在零售.制造业.电力.医疗.教育这五大领域.雷锋网(公众号:雷锋网)就其中医疗行业部分为您进行了编译和解读. 医疗保健是很有前途的人工智能市场.它的推理能力和在大量病历.医疗图像和流行病等统计数据中进行模式识别的能力有巨大的潜力.人工智能可以帮助医生改善他们的诊断,预测传染疾病,并定制医疗方案.人工智能与医疗保健数字化相结合,可以让提供者远程监视或诊断病人,同时还能够改变方式

C#开发WPF/Silverlight动画及游戏系列教程(Game Course):(二十九)

C#开发WPF/Silverlight动画及游戏系列教程(Game Course):(二十九) 人工智能(AI)之追踪者 经过前面28节的不断完善,主角已经具备了MMORPG游戏中的大多数功能:但是其他精灵例如怪物等暂时还是无法行动的,上一节中它们无辜的充当了主角的肉靶子,它们开始呐喊:上帝呀,请给予我们灵魂与智慧吧!其实灵魂早就有了,就是精灵的生命线程.那么该如何赋予精灵智慧呢? 精灵智慧的实现其实就是为精灵赋予AI(人工智能).完整的游戏引擎或多或少都必须拥有一定的AI,例如棋牌类型游戏有着

云计算设计模式(二十四)——仆人键模式

云计算设计模式(二十四)--仆人键模式 使用一个令牌或密钥,向客户提供受限制的直接访问特定的资源或服务,以便由应用程序代码卸载数据传输操作.这个模式是在使用云托管的存储系统或队列的应用中特别有用,并且可以最大限度地降低成本,最大限度地提高可扩展性和性能. 背景和问题 客户端程序和网络浏览器经常需要读取和写入文件或数据流,并从一个应用程序的存储空间.通常,应用程序将处理的运动数据,或者通过从存储读取它,并将其传输到客户端,或通过从客户机读取该载流并将其存储在数据存储中.然而,这种方法吸收了宝贵的资

Windows 8风格应用开发入门 二十四 App Bar构建

构建应用栏的目的的显示导航.命令和始终隐藏不需要的使用的工具.我们可以把应用栏放在页面 顶部或底部或同时存在顶部和底部. 默认情况在AppBar是隐藏的,当用户单击右键.按下Win+Z .或从屏幕的顶部或底部边缘轻松时可显示或关闭AppBar.当然我们也可以通过编程的方式将AppBar设 置为当用户做选择或与应用交互时显示. 构建AppBar基本步骤 通常我们构建一个应用的 AppBar,只需要三步就可以完成: 开发入门 二十四 App Bar构建-jenkins构建自由风格"> 如何构建