英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势(下)

雷锋网(公众号:雷锋网)按:在上篇文章中,我们看到了深度学习对计算量的迫切程度。以及介绍了一款Intel为此设计的处理器:代号为KNL(Knights Landing)的高性能CPU Xeon Phi。在下篇我们将为大家展示一些深度学习语言开发者们针对这些需求和新硬件做出的调整和改进。

在上文的末尾提到了著名的开源学习框架Caffe。不过,来自伯克利大学的原始版本的Caffe语言在处理的数据规模太大时需要的时间太长了,并且默认情况下并不支持多节点、并行文件系统。因此不是很擅长超大规模的深度学习运算。不过由于Caffe是开源的,因此理论上任何人都能对其进行自己需要的改进。Caffe的多种功能事实上都有很好的被改进以支持集群并行计算的潜力。而浪潮集团在原版Caffe的基础上加以改进,开发出了第一代支持在KNL上进行丛集并行计算的Caffe版本。支持英特尔的Luster存储器、OPA网络和KNL丛集。

浪潮集团将这个改进版的Caffe框架命名为Caffe架构,下图是关于Caffe-MPI在KNL上进行运算时的结构的一些解释。可以看到,其计算流程采用MPI主从模式,使用多个KNL处理器组成节点网络,主节点使用一个KNL,而从节点可以视需求由N个KNL构成,因为使用了专为HPC设计的Lustre文件系统,因此数据吞吐量并不会限制到计算和训练。OPA架构也保证了网络通信的顺畅。软件系统方面,支持Linux/Intel MKL和Mvapich2 。

设计框架中的主节点为MPI单进程+多Pthread线程,从节点为MPI多进程,图中展示了整个网络训练的框图。

设计中对KNL的最多72个核心可以进行充分利用,主进程可以同时处理三个线程:并行读取和发送数据、权重计算和参数更新、网络间的参数沟通。下图中给出了图示。

MPI结构中的从进程的主要处理流程是:从主进程中接收训练数据、发送权重数据、接收新的网络数据、进行前向、后向计算。从节点网络中每一个KNL核代表了一个MPI网络中的从节点。

下图中的信息表示,改进版的在KNL丛集上运行的Caffe-MPI架构对原版Caffe进行了多项优化。最终的效果表现是原版的3.78倍。增加KNL处理器的总数时的性能扩展效率高达94.5%

而FPGA是另一项在深度学习领域极有潜力的硬件。

目前浪潮、Altera和科大讯飞在在线识别领域对FPGA的应用起到了很好的成效。结果表明,FPGA组成的系统在各项指标上都显著优于传统CPU组成的系统。

结论是,对于离线学习来说,基于KNL处理器搭建的MPI-Caffe架构可以很好的完成任务。而在线语音平台等在线认知项目则很适合使用FPGA来搭建系统。

本文作者:黄鑫

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-09-14 05:25:51

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势(下)的相关文章

英特尔浪潮共推高性能计算用户迁移计划KEEP

日前,浪潮与英特尔联合推出了一项针对Knights Landing(以下简称KNL)新一代处理器的试用体验计划(Knights Landing Evaluation and Escalation Program,简称KEEP),双方将共同建立基于全新KNL技术的.开放的高性能计算系统,帮助更多高性能计算和深度学习用户在KNL上完成应用测试.迁移及优化.7月20日,KEEP计划将正式接收用户报名申请.同时,在当天举办的英特尔高性能计算应用创新论坛上,所有到场用户可到浪潮展区进行现场注册报名. KE

IBM 联合英伟达开发“最快的商用深度学习系统”

IBM和NVIDIA宣布将合作开发IBM PowerAI,一款可以加速训练人工智能的系统,也将会增强IBM Watson能力的软件工具. 在这周一公布的IBM PowerAI是一款训练人工智能和机器学习系统的软件工具.它所使用的是IBM一款专门为人工智能生产的服务器,并采用了NVIDIA的NVLink技术,可以把电脑学习的速度大大提高. 在提供给媒体的发布邮件中,IBM PowerAI被称为"世界上最快的商用深度学习软件",可以"帮助训练电脑更快的达到可以像人类思考和学习的境

【CES专访】英特尔副总裁:我打赌英特尔将成为无人驾驶的王者

CES 50周年之际,英特尔在拉斯维加斯LVCC中央展馆入口处的展台人潮汹涌,聚焦于虚拟现实技术.无人驾驶和 5G体验与互动的酷炫风格展现出前所未有的动感活力,其中与无人驾驶技术相关的一系列产品尤其值得关注. 上周二,宝马集团.英特尔和 Mobileye宣布,大约 40 辆宝马无人驾驶汽车将于今年开始路测.这是三家公司携手全面实现无人驾驶目标所迈出的重要一步.2016年6月,英特尔宣布与宝马集团和Mobileye携手合作,将在2021年把无人驾驶汽车全面投入市场.作为该举措的一部分,三家公司的负

摆脱对PC、服务器的依赖,英特尔“悄悄”在人工智能布下两颗棋子

科技公司的年度大会有两种,一种是推出普通消费者日常生活使用的用品,如苹果一年一度或一年两度的iPhone 发布会,另一种则是针对技术开发者发布的SDK.API.开发套件等,一如英特尔的开发者技术大会 IDF. 如果说苹果的发布会讲述的是当下最好的软硬件集成,那么英特尔的发布会则是探讨未来的各种可能. 这其中,最让业界关注的恐怕还是英特尔打算如何切入当下最火的人工智能领域.放眼业界, 人工智能成为当下技术公司发力的方向.AlphaGo 用一场完胜将 Google 深度学习推进人工智能的野心展露无疑

AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片

2016年11月17日,英特尔公司宣布推出一系列涵盖从前端到数据中心的全新产品.技术及相关投资计划,旨在拓展人工智能(AI)的发展空间并加速其发展速度. 英特尔首席执行官科再奇近期分享了英特尔对人工智能的前景及复杂性的洞察,他指出,人工智能需要众多的领先技术的支撑,以及一个可超出初期采用者范围的更大规模的生态系统.随着目前的算法日益复杂以及所需数据集的不断增加,科再奇表示,英特尔深刻知道如何满足需求且完全有能力提供所需的技术来驱动这一计算转型. 战略要点:英特尔 Nervana 平台 英特尔宣布

从英特尔支持DE超声机器人开发,看人工智能在医疗影像领域的价值和机遇

医疗影像数据快速增长,引入人工智能技术成必然 人工智能和医疗影像的结合已经成为一个比较热门的研究和创业方向.除了以深度学习技术驱动的计算机图像识别能力的大幅提升之外,医疗影像数据的快速增长也是重要原因.   医疗大数据中有超过 80 % 的数据来自于医疗影像.这些数据大多要进行人工分析.目前我国医学影像数据的年增长率约为30%,而放射科医师数量的年增长率约为 6.1%,其间的差距是 23.9%,放射科医师的数量增长远不及影像数据的增长.这意味着放射科医师在未来处理影像数据的压力会越来越大,甚至远

英特尔True Scale Fabric架构增强型高性能计算架构与性能

今天的高性能计算(HPC)集群 往往拥有数量更多的节点,并且每个节点现在使用的是速度 更快.密度更高的多 核处理器.这意味着扩展性能对在这些规模更大.速度更快的集群上优化应用性能而言至关重要.互联性能是决定高性能计算集群扩展性能的关键因素.此外,高性能互联占HPC 集群成本的多至30%.因此,互联技术的性价比是购买高性能计算集群时的一个关键考虑因素. &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 基于Infin

并购潮背后 英特尔能否跨域移动成为AI芯片老大

编者按:英特尔IDF大会刚结束不久的9月6日,英特尔就在北京召开了机器学习策略的媒体沟通会.在频繁的收购AI公司背后,英特尔销售与市场事业部副总裁夏乐蓓与英特尔中国研究院院长宋继强共同阐述了英特尔在人工智能领域的战略规划与产品布局.错失了移动时代机遇的英特尔,在人工智能时代能否扳回一局?全力押注人工智能,英特尔在产品技术上有哪些优势和不足? 频繁收购AI公司 补齐人工智能技术短板 从去年12月开始,英特尔开启了大举收购人工智能相关技术公司的洪流.据不完全统计,在一年多的时间里,英特尔至少收购了六

贾斯汀:英特尔中国研究院专注云计算HPC等领域

CNET科技资讯网 4月12日 北京报道(文/梁钦):今日下午,英特尔北京国家会议中心举办了英特尔信息技术峰会(IDF)技术前瞻日. 会上,英特尔CTO贾斯汀指出,去年10月份,英特尔中国研发中心升级为英特尔中国研究院以来,英特尔内部花了6个月时间来制定新的研究战略.英特尔CTO贾斯汀在英特尔IDF技术前瞻日上演讲 贾斯汀表示,"英特尔研究院下辖 5大研究院,英特尔中国研究院是英特尔唯一一个以地域命名的研发中心.英特尔中国研究院面向中国及全球市场." 据悉,贾斯汀管辖的英特尔研究院旗下