国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域大放异彩。然而,诸如 VGG、ResNet 和 Xception 等深度模型在取得优越性能的同时往往伴随着极高的存储空间需求和计算复杂度,而现有的通用计算平台(如CPU和GPU等)很难实现高能效的神经网络计算。为了满足深度神经网络在不同的应用场景(如云端和终端)下的算力和能效需求,探讨如何在算法层面运用量化、剪枝等方法进行模型压缩,以及设计适应于不同应用场景的高能效神经网络计算芯片/架构已经成为学术界和工业界近阶段的一个研究热点。

目前,基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域取得了广泛的应用。这其中,一方面要归功于算法研究者的坚持使算法得以取得诸多突破,另一方面也是海量数据的出现和硬件运算能力的提升为算法的有效训练带来了可能。与此同时,深度学习算法的成功也反过来推动了硬件的发展。目前,硬件对深度学习算法的支持主要包括两个方面,一个是训练(Training)阶段,需要非常高的算力和大容量存储来支持大规模深度神经网络模型的训练;另一个是推理(Inference)阶段,需要将训练好的模型部署到实际的应用场景下,包括在需要高性能、高吞吐率的数据中心端提供云服务,以及在需要低功耗的嵌入式/移动终端相关的应用。

目前,使用 GPU 来进行神经网络的训练几乎已经成为了研究深度学习算法的标配。但是,在进行实际部署时,由于深度神经网络模型往往伴随着极高的存储空间需求和计算复杂度,包括GPU、CPU在内的传统通用计算平台在大多数情况下并不能满足实际模型部署对功耗和性能(或者能效比)的综合需求,这也使得一些具有更高综合能效比的硬件,如 FPGA 和面向 AI 应用的 ASIC(包括可重构ASIC)芯片逐渐获得关注。为了满足深度神经网络模型在不同的应用场景下对算力和能效的需求,一方面,可以利用现有深度神经网络模型存在内在冗余这一特性,在几乎不损失模型精度的前提下从算法层面对模型进行裁剪和优化;另一方面,也可以设计针对深度神经网络模型的计算模式进行优化的高能效硬件架构,用于加速模型的计算过程。 当然,也可以同时结合这两个方面,做算法和硬件的协同设计和优化(Joint Algorithm And Architecture, JAAA, design optimization)。

模型裁剪与优化

目前该领域的方法可以大概分为两类:

1.针对某些精度较高但较复杂的网络模型,通过剪枝、量化、低秩分解等措施减少模型的参数和计算量。这类方法往往能大大减少模型的复杂度,实现对参数或者计算量很高的压缩比,但其中不少方法都需要特定的硬件支持才能真正发挥其效用。此外,这里面提到的某些方法也可以用于减少模型训练过程中参数更新带来的硬件开销,加速训练过程;

2. 考虑直接设计更为高效(较少参数+低计算复杂度)的神经网络模型,同时模型的精度可以尽量接近复杂的网络模型,或是通过一些方法将复杂模型学习得到的知识迁移到小的模型上面,最终可以直接部署这些较为精简的模型。

AI 芯片/加速器

在针对 AI 的高能效硬件架构设计方面,相关的工作大体可以分为以下几个方面:

1. 能够支持主流深度学习算法常见操作的专用处理器架构(ASIP),以及专用的深度学习指令集,如中科院计算所的 DianNao系列处理器和Cambricon指令集;

2.针对深度神经网络的数据复用方式、访存的优化:探索适合于神经网络的计算模型,在计算时通过合理的资源调度实现对神经网络计算过程高效的加速;

3. 近似计算/近似存储:利用神经网络对噪声和误差具有一定的容错性,在计算/存储过程中通过一些具有较低硬件开销的近似方法来提高网络的计算能效;

4. 新型存储结构,如通过非易失性电阻式存储器(Non-volatile Resistive Memories),实现计算和存储一体化(process-in-memory),直接在存储里面实现计算的功能;

5.软硬件协同优化:在前面模型优化方法的基础上,进一步设计相应的硬件架构,使得诸如剪枝、量化等模型压缩方法的效果可以被充分的利用;

在这波 AI 浪潮中,国内也有不少高校和研究机构从事相关的研究,并在国际上取得了可观的影响力。相应技术的落地也催生了不少 AI 芯片/加速器的初创公司,包括寒武纪科技、地平线机器人、深鉴科技等。作者的团队(南京大学 ICAIS 实验室)也在这方面取得了一些突出成果,包括:

基于有限冲击响应算法的高效可配置快速卷积单元

  • 基于并行快速有限冲击响应算法(FFA)对卷积计算进行算法强度缩减,理论推导了3并行、5并行和7并行等N-并行的快速卷积算法。设计了能高效完成3×3和5×5卷积计算的快速卷积单元(FCU)。进一步地,针对目前主流的CNN卷积核大小,设计了可以高效实现各种常见卷积操作的可配置卷积单元,并在硬件利用率、功耗和可配置性之间达到了最优的平衡。所设计的硬件结构可以配置实现2x2到12x12所有尺寸的卷积操作。

等间隔/K平均聚类非均匀定点量化方法

  • 提出了等间隔非均匀定点量化(Equal Distance Intra-Layer Non-Uniform Quantization)和K平均聚类非均匀定点量化(K-means Cluster Intra-Layer Non-Uniform Quantization)两种量化方法,可以大大降低卷积神经网络中activation的存储需求。相比于已有的针对activation的量化方法,可以在不损失精度的情况下提高压缩率2倍以上。

深度卷积神经网络高效硬件架构设计与实现

  • 基于上述的FCU和动态计算流程,提出了高效的卷积神经网络处理和存储架构。基于 VGG16的测试结果表明,所提出的层内按行交替存储和层间轮回复用的方式相比于传统按层顺序计算的存储架构可以节省大约14倍的片上存储资源,在同样的平台下资源利用率比同类设计高出2倍以上。

适用于嵌入式系统的高能效二值参数卷积神经网络硬件架构

  • 提出了一种高能效的二值参数卷积神经网络的硬件架构。该架构利用了二值参数网络的鲁棒性等特点,引入了多种近似计算技术。此外,该架构还采用了一种优化的计算流程,最大程度地减少了访问DRAM的次数和带宽需求。该架构在65nm工艺下能够达到约2.08TOp/s/W的能量效率(已考虑片外DRAM访存功耗)。相比于已有的二值网络ASIC实现在能效方面有超过2倍的提升。 

递归神经网络的模型压缩与硬件架构设计

  • 在算法层面,通过在递归神经网络(RNNs)中引入结构化的参数矩阵(如循环矩阵),参数量减少为原来的 25%;进一步结合前向激活函数近似,以及根据 RNN 中不同参数矩阵对量化的敏感程度上的差异,混合使用均匀量化和基于对数域的非均匀参数量化方法,在基本不损失模型预测精度的前提下均取得了超过20倍的参数压缩率,计算复杂度也大大降低。

其它相关研究

此外团队还研究了高能效的能耗-精度可伸缩(Energy-Quality Scalable)的卷积神经网络硬件加速器结构,基于隐私保护(Privacy-Preserving)的深度学习算法及其硬件架构,基于张量分解(Tensor Decomposition)的神经网络的嵌入式硬件架构, 以及递归神经网络的负载均衡(Load-Balance)稀疏化方法等等。上述成果多数已经在IEEE Xplore 在线发表。

结束语

随着学术界和工业界对人工智能技术持续大力的推动,可以肯定的是在未来相当长的时间内,面向应用的基于算法和硬件架构联合优化方面的研究将会得到更加广泛的关注和加速的发展。

原文发布时间为:2017-12-24

本文作者:王中风

原文链接:国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

时间: 2024-08-22 00:23:14

国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求的相关文章

国家千人计划专家张建伟教授:人工智能在医疗机器人领域的应用

AI掘金志(公众号):雷锋网(公众号:雷锋网)旗下只专注于报道AI商业化与落地的垂直内容频道.助力"AI技术输出者"寻找商业潜力大的落地场景,服务"AI技术消费者"选择适合自身的技术供应商. 雷锋网AI掘金志主要推送两类文章: 1.深入挖掘AI公司与传统机构的合作案例. 2.剖析各地医院.银行.制造企业.零售商.政府部门等传统机构对AI的需求与实际应用情况. "未来的机器人实际上它是一个多模态交互的机器人,这在医疗里面尤其显得重要."在近日举办的

搜索营销诞生10年 千人聚京热议“平等发展”

中介交易 SEO诊断 淘宝客 云主机 技术大厅 十年前,搜索引擎刚刚萌芽,还是一个陌生的概念,十年后,搜索营销已经汇集40多万企业,并成为推动经济增长.企业成长的新生产力引擎.2011年 11月21日,作为全球最大的中文搜索引擎,百度在京举办搜索营销十周年庆典活动,全球品牌营销大师米尔顿•科特勒.著名经济学家长江商学院创办院长项兵.百度首席财务官李昕哲.百度副总裁王湛.百度副总裁向海龙.百度副总裁朱光以及企业代表等近千人出席,此次庆典不仅就当前经济形势下,如何发挥搜索引擎在促进经济发展.构建平等

千人站长讲座26期:王斯 揭秘BD合作和推广绝密大法

中介交易 SEO诊断 淘宝客 云主机 技术大厅 安徽互联网联盟主办的千人站长讲座(http://www.53w.net)已经到第26期了,本期为大家请来国内知名BD专家王斯 . 本期为大家请来王斯 . 王斯,BD之家(www.54bd.com)创始人,资深互联网人士,艾瑞专栏专家,多年互联网实战经验.专注于互联网商务合作.网络讲座主群.直播群.转播群(1500人)已满,新到站长可加500人讲座四群:27915544 免费参加但是请尊重学习环境我们随时会T从来不发言的站长 让更多想学习的站长进来

第二届中国制造千人会在上海胜利召开 创新驱动转型成共识

 12月8日,由中国经济体制改革研究会产业改革与企业发展委员会为指导,至顶网和工业4.0协会联合主办"MIC1000第二届中国制造千人会"在上海成功举办.第二届中国制造千人会以"新技术·新工业·新商业"为主题,聚焦制造业的转型升级和商业.技术创新热点话题,展望行业未来发展趋势. 上海自贸区管委会副主任李兆杰.中国经济体制改革研究会产业改革与企业发展委员会会长廖明,和上海外高桥集团股份有限公司副总经理李伟对本次大会进行致辞. 图:上海自贸区管委会副主任李兆杰 李兆杰在

新技术·新工业·新商业”第二届中国制造千人会即将起航

12月8日,由中国经济体制改革研究会产业改革与企业发展委员会为指导,至顶网和工业4.0协会联合主办"第二届中国制造千人会"将在上海龙之梦大酒店隆重举办. 本届大会以"新技术·新工业·新商业"为主题,聚焦制造业的转型升级和商业.技术创新热点话题,展望行业未来发展趋势.汇聚上千名制造业专家学者.企业运营负责人.制造企业信息化负责人.产品开发设计负责人.互联网从业者.制造业投资人.智能硬件创业者等. 纵观全球制造业,第四次工业革命正在到来,欧美等发达国家提出"再

一次性消费600万美元中国千人团被誉美旅游救星

部分赴美中国千人团的游客手持折扣卡和采购战利品在梅西百货合影留念(摄/魏晞) 2010年春节,美国纽约迎来史上最大规模的超过1000人的中国旅行团.据悉,这批中国游客预计将一次性为美国经济贡献600万美元,美国众商家纷纷亮出看家本领吸引中国游客,他们表示中国游客为惨淡挣扎中的美国旅游业带来惊喜,成为美国旅游业的"救星". 千人团旅美中国颜色照耀全纽约 据美国<世界日报>日前报道,上海国际旅行社有限公司美大部经理侯沧舟介绍说,这次赴美旅行的中国游客共分为几批,第一批于本月10

千人挤爆富士康郑州招聘面试持续十二小时

晚报特派见习记者 王煜 郑州报道 昨天,记者走访了郑州火车站,发现车站附近并没有集中招聘,而前往苏浙沪方向务工的客流依然不少.职业学校还在向以往的长三角用工企业输出劳动力,但这些务工者已经不太愿意再离乡了.与此对应的是富士康郑州厂区招聘的持续火爆,一千多人几乎让职业介绍中心陷于瘫痪,工作人员连午饭晚饭都顾不上吃,连续面试了十二小时. 火车站:返城学生其实为讨薪 昨天上午,郑州火车站人潮涌动,临近元宵节,节后农民工外出的又一波高峰初现.在开往上海方向的临客候车室里,挤满了带着大包小包的人群.年前的

王飞跃教授点评:无人车最“靠谱”的应用领域——不是出行

MIT  TR 昨日在网站上发表了一篇介绍无人驾驶在矿区应用的文章,文章提到,在澳大利亚西北部,矿业公司 Rio Tinto 正在积极采用自动化技术提高生产效率,该公司目前在用无人驾驶运输卡车有73辆,在四个矿井上每天24个小时连续作业. 这些卡车中每一辆都有两层楼那么高,但是,没有一辆卡车上有司机,更确切地说,没有一辆卡车上有人. 文章还提到,世界上最大的矿业公司,必和必拓(BHP Billiton)也在开发无人驾驶卡车,在澳大利亚开钻铁矿.加拿大最大的石油公司 Suncor 也开始在位于Al

腾讯成都建研发中心年底扩员到千人

台球桌.桌上足球.按摩椅--这不是在说某个娱乐中心,而是国内互联网巨头腾讯在成都高新区投资5.5亿元建设并刚刚竣工的研发中心.在这栋建筑面积达1.8万平方米的研发大楼内,布设了众多的员工娱乐活动设施,而700名腾讯成都员工这几天开始陆续入驻. 腾讯研发中心也是去年地震后成都签订的第一个大型投资项目,第一期投入已经全部到位.昨天,腾讯集团的两位联合创始人,被称为"QQ之父"的首席执行官马化腾和首席行政官陈一丹专程来到成都,考察研发中心的启用情况,所到之处受到员工粉丝们的欢迎. 成都研发中