AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片

2016年11月17日,英特尔公司宣布推出一系列涵盖从前端到数据中心的全新产品、技术及相关投资计划,旨在拓展人工智能(AI)的发展空间并加速其发展速度。

英特尔首席执行官科再奇近期分享了英特尔对人工智能的前景及复杂性的洞察,他指出,人工智能需要众多的领先技术的支撑,以及一个可超出初期采用者范围的更大规模的生态系统。随着目前的算法日益复杂以及所需数据集的不断增加,科再奇表示,英特尔深刻知道如何满足需求且完全有能力提供所需的技术来驱动这一计算转型。

战略要点:英特尔 Nervana 平台

英特尔宣布将推出业内最全面的人工智能产品组合——英特尔 Nervana 平台。该产品组合旨在提高人工智能应用的速度和易用性,是构建高度优化的人工智能解决方案的绝佳基础,可帮助更多的数据专家在基于行业标准的技术上解决世界上最大的挑战。

目前,从已有的资料可知,在深度学习上,英特尔与Nervana首先会推出一个名为Nervana Graph(ngraph)的深度学习开放框架开发库。目前在Github上可获取的预览版包含三个部分:

  1. 一个用于创建计算 ngraphs 的API。
  1. 两个更高水平的前端API(TensorFlow 和 Neon),可在常用的深度学习工作流(workflows)上利用ngraph API。
  1. 一个用于转换的API,用于编译这些图形,并在GPU和CPU上执行。

Nervana官方网站介绍说,Theano 和 TensorFlow 计算图要求使用者在创建图形的同时要推论潜在的向量形状。这相当枯燥,并且容易出错。另外,这种方法还会削弱一个编译器重新排列坐标轴和与特定的硬件平台相匹配的能力。

ngraph的一个原理,就是能在一个足够高的抽象层中运行,其中转化器能在不需要一个“足够高效的智能编译器”的情况下执行命令,同时也能允许用户和前端更加容易地把这些块(block)组合在一起。

2017年上半年测试首款深度学习芯片(代号Lake Crest)

据介绍,当前,英特尔支持着世界上97%的运行着人工智能工作负载的数据中心服务器,同时提供最为灵活、性能最优化的解决方案产品组合,其中包括英特尔至强处理器、英特尔至强融核 处理器、为工作负载优化的加速器如FPGA以及从Nervana收购的技术创新。

 

昨天,英特尔还公布了如何将Nervana的突破性技术集成至现有产品路线图的更多细节。英特尔将于2017年上半年测试第一款芯片(代号为Lake Crest),并在下半年向主要客户发售。此外,英特尔还在路线图中增加了一款新产品(代号为Knights Crest),它将紧密集成最高配置的英特尔至强处理器与Nervana创新技术。此外,Lake Crest处理器专门针对神经网络进行了优化,可为深度学习提供极高性能,并可通过高速互连网络提供前所未有的计算密度。

 

“我们期待英特尔Nervana 平台能够带来突破瓶颈的性能优势,从而大幅缩短训练复杂神经网络所需的时间”,英特尔执行副总裁兼数据中心事业部总经理柏安娜女士表示:“英特尔有望在未来十年内将性能提高100倍,从而大大加快新兴深度学习领域的创新步伐。”

下一代深度学习至强融合处理器:深度学习性能提高4倍

柏安娜女士还宣布,相较于前一代处理器,下一代英特尔至强融核处理器(代号为KnightsMill)的深度学习性能可提高4倍,计划于2017年上市。此外,英特尔宣布现已向特定云服务提供商合作伙伴提供下一代英特尔至强处理器(代号为Skylake)的初级版本,该处理器采用了英特尔高级矢量指令集AVX-512集成加速技术,将极大增强机器学习工作负载的推理性能。该平台系列预计于2017年中旬发布,届时还会增加其他增强功能和配置,以全面满足不同客户群体的需求。

除了芯片级的创新之外,英特尔还披露了其他人工智能布局,包括专为客户提供业务洞察而打造的解决方案方案——英特尔Saffron Technology。Saffron平台采用了基于内存的推理技术和异构数据透明化分析方法,该技术非常适用于小型设备,可在物联网环境中实现本地智能分析并帮助推动先进的人工智能协作发展。

 

为简化人工智能的部署,英特尔还推出了通用智能API,可支持从边缘到云平台的英特尔分布式处理器产品组合,以及英特尔实感 摄像头和 Movidius 视觉处理单元(VPU)。 

英特尔Nervana人工智能委员会,Bengio成为创始会员

此外,英特尔和谷歌正式宣布双方建立战略联盟,旨在帮助企业IT部门根据业务需求构建开放、灵活、安全的多云基础设施。双方合作包括专注于Kubernetes*(容器)、机器学习、安全和物联网的技术集成。

 

为进一步推动人工智能研究和战略实施,英特尔还宣布成立英特尔Nervana 人工智能委员会,主要由业界和学术界的领先思想领袖组成。英特尔公布了四名创始会员分别为来自加拿大蒙特利尔大学的约舒阿·本希奥(Yoshua Bengio)、来自加州大学伯克利分校的鲁诺·奥尔斯豪森(Bruno Olshausen)和拉贝艾(Jan Rabaey)以及来自斯坦福大学 Ron Dror。

 

英特尔还将不遗余力推动人工智能的真正普及。为此,英特尔向广大开发者推出了英特尔Nervana人工智能学院,以方便其接受相关培训和使用工具。英特尔还推出了英特尔Nervana图形编译器来加速英特尔芯片中的深度学习框架的发展。

 

除了人工智能学院,英特尔还宣布与Coursera合作,为学术社区提供一系列人工智能在线课程。英特尔还将与Mobile ODT联合主办Kaggle 竞赛活动(预计于2017年1月份开展)。

跨平台深度学习开放框架 Nervana graph 的详细介绍

2016年8月9日,英特尔宣布收购深度学习初创公司 Nervana Systems,交易金额约为 4.08 亿美元。Nervana 由原高通神经网络研发负责人于 2014 年创建,拥有目前最快的深度学习框架 neon。3个月周后,英特尔与Nervana终于开始在深度学习上发力,推出跨平台高性能深度学习开放框架开发库ngraph。本文是Nervana官网上对ngraph所包含的API内容、原理和性能介绍。


下文作者为Nervana 算法团队成员Jason knight,由新智元编译。

基于我们多年以来维护最快速的深度学习库上的经验,以及一年以来在以图形为基础的设计上的迭代,我们现在希望分享预览版的 Nervana Graph(ngraph),本次发布包含三个部分:

  1. 一个用于创建计算 ngraphs 的API。
  1. 两个更高水平的前端API(TensorFlow 和 Neon),可在常用的深度学习工作流(workflows)上利用ngraph API。
  1. 一个用于转换的API,用于编译这些图形,并在GPU和CPU上执行。

与Theano和TensorFlow的对比

Theano 和 TensorFlow 计算图要求使用者在创建图形的同时要推论潜在的向量形状。这相当枯燥,并且容易出错。另外,这种方法还会削弱一个编译器重新排列坐标轴,与特定的硬件平台相匹配的能力。

相反,ngraph API 能让用户定义一系列的命名轴,在图形的绘制过程中,把这些轴添加到张量上,并在有需要的时候,通过此前的命名(而不是位置)对它们进行分类。这些轴能够根据特定的问题领域进行命名,来帮助用户解决具体任务。

这种灵活性进而将允许转化器在执行命令之前,对必要的重塑或重组进行推断。另外,这些推断的张量轴排序随后在整个计算图上会被进行优化,用于对潜在的运行时间和硬件平台的推断进行排序,来在本地对Cache 和运行时间或执行时间进行优化。

这些能力突出了ngraph的一个原理,就是能在一个足够高的抽象层中运行,其中转化器能在不需要一个“足够高效的智能编译器”的情况下执行命令,同时也能允许用户和前端更加容易地把这些块(block)组合在一起。

前端

绝大多数应用和用户并不需要ngraph API 所提供的全部的灵活性,所以我们还推出了一个更高水平的neon API,它会给用户提供一个可组合的接口,另外还有多个常用的构建模块,用于搭建深度学习模型。其中包括东西的有:常用的优化器、权值以及层类型,比如线性、批处理规范、卷积和RNN。

我们还用在MNIST数字、CIFAR-10图像和 Penn Treebank 文本语料库上训练神经网络的例子,呈现具体的使用。

下一代neon深度学习API,加上ngraph后端机械,最终将取代我们当前的neon库,同时仍然提供与此前一样领先世界的性能,以及广泛的开放模型目录。当性能,稳定性,可用模型和工具匹配当前可用的模型时,我们将进行此转换。预计这将在未来几个月内实现。

我们还意识到,用户现在已经知道并使用现有框架,并且可能希望继续使用/组合在其他框架中编写的模型。为此,我们演示了将现有TensorFlow模型转换为ngraph的能力,并使用ngraph转换器执行它们。这个输入者(importer)支持今天的各种常见操作类型,并将在未来版本中得到扩展。我们还计划在不久的将来实现与其他框架的兼容,敬请关注。

此外,我们希望强调,因为ngraph提供了深度学习计算和多个高性能后端的核心构建块,所以添加前端是一个简单的事情,对后端(或新后端)的改进自动利用所有现有和未来的前端。因此,用户可以继续使用他们喜欢的语法,同时受益于共享编译机制。

转换器

考虑到现有技术模型都要使用数百万甚至数十亿的参数和数周的训练时间,所以确保模型以最小的内存消耗快速执行是至关重要的。鉴于我们建立和维护最快的深度学习库的经验,我们对现代深度学习的复杂性感到庆幸:

  • 内核融合/复合 
  • 高效缓冲区分配 
  • 训练与推理优化
  • 异构后端 
  • 分布式培训
  • 多个数据布局
  • 新硬件提升(例如:Nervana Silicon Technology)

考虑到这些现实情况,我们设计了ngraph转换器,通过干净的API,把从前端获得的细节进行自动化和抽象,在允许强大的用户空间同时调整所有事物的情况下,但又不限制模型创建过程中抽象的灵活性。 

在ngraph中,我们相信实现这些目标的关键在于站在巨人的肩膀上,吸取现代编译器设计的经验。在选择编译器优化的设置和顺序时,用于转换器时,可以提高灵活性。

这些操作原则增加了我们工具的灵活性,同时降低了复杂性。这使得贡献者更容易添加后端代码以支持外来模型,而不需要理解或修改系统中其他地方做出的假设。

每个ngraph转换器(或LLVM术语中的后端)都针对特定的硬件后端,并且被当成是一个接口,来将一个ngraph编译到一个计算机中。用户会把其看成是一个函数句柄评估,来进行衡量。

今天,ngraph带有用于GPU和CPU执行的转换器,未来,我们计划采用异构设备转换器,支持分布式训练。

一个简单的例子

现状与下一步的工作

由于这是一个预览版本,我们有很多工作要做。

目前我们包括以下示例:

  • 使用MNIST和CIFAR-10的MLP网络。
  • 使用MNIST和CIFAR-10的CNN。
  • 使用Penn Treebank的基于字符的RNN。

在Nervana被英特尔收购之后,我们拥有一个快速增长的世界级专家团队,涵盖编译器,分布式系统,系统软件和深入学习等项目。我们正在积极努力:

1.几个性能方面的努力:

  • 关于融合/复用和存储器共享的进一步工作
  • 并发操作执行
  • 流水线数据加载 

2. 图形序列化/反序列化。

3. 进一步改进图形组合性的可用性/优化。

4. 为更受欢迎的前端添加额外的支持。

5. 分布式,异构后端目标支持。

6. 具备互操作性的C API,用其他语言也能够创建/执行图形。

7. 现代的,云原生模型部署策略

8. 支持增强学习的网络架构前端

文章转自新智元公众号,原文链接

时间: 2024-12-03 22:42:12

AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片的相关文章

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势(下)

雷锋网(公众号:雷锋网)按:在上篇文章中,我们看到了深度学习对计算量的迫切程度.以及介绍了一款Intel为此设计的处理器:代号为KNL(Knights Landing)的高性能CPU Xeon Phi.在下篇我们将为大家展示一些深度学习语言开发者们针对这些需求和新硬件做出的调整和改进. 在上文的末尾提到了著名的开源学习框架Caffe.不过,来自伯克利大学的原始版本的Caffe语言在处理的数据规模太大时需要的时间太长了,并且默认情况下并不支持多节点.并行文件系统.因此不是很擅长超大规模的深度学习运

360搜索引擎的战略剑指何方

中介交易 SEO诊断 淘宝客 云主机 技术大厅 中国市场上除了之前退出中国市场的google搜索,现在搜索量的龙头非百度莫属,腾讯搜搜等其他搜索引擎和龙头百度的差距还比较大.作为龙头的百度一次次越来越剧烈的变革搜索规则,引得SEO领域的专业人士们心惊胆跳.如何才能够保住自己的网站不被K掉,成了众人焦虑的核心.念头,行为,正能量.而在这个风起云涌的时代,又一匹默默无闻的黑豹匍匐前进着,试图利用差异化的公司战略在搜索引擎领域掀起飓风. 这匹黑豹就是360搜索. 我们打开百度搜索,百度公司告诉我们的是

【AI业界剧震】英伟达禁止数据中心使用GeForce做深度学习

英伟达的CEO黄仁勋曾经说,他最喜欢三件事--游戏.GPU.深度学习.这三件事也是英伟达的命脉所在.5年前黄仁勋英明的判断将GPU从游戏转向深度学习成就了他自己和他的公司在深度学习界的地位. 不过,当一个市场被一家企业所主导,这家企业就可能采取各种措施,获取尽可能多的利润,甚至达到垄断的目的. 最近,日本公司Ubiquitous Entertainment总裁兼首席执行官清水亮撰文[1],指责英伟达悄然修改终端用户使用协议,禁止在数据中心使用GeForce软件,并称这一改动将会影响广大的深度学习

英特尔芯平板已达130款:全年欲售4000万台

新浪科技讯 6月21日下午消息,英特尔中国区产业链营销总监洪力本周在接受采访时表示,英特尔仍然会把"英特尔芯"平板电脑的全年销售目标定在 4000万台.这一销量目标早在去年底即已敲定.但今年第一季度,英特尔只售出了500万台平板电脑,仅为全年目标的1/8.洪力并不感到担心:"整个市场上用户接受度已超出我们的想象."在他看来,第一季度是处理器出货的淡季,第二季度有望环比翻番,而第三和第四季度是旺季,因为OEM厂商要给圣诞季或者购买季备货.目前,英特尔除了为 Windo

英特尔展示触摸屏超极本:配IVB芯片

英特尔展示触摸屏超极本:配IVB芯片键盘细节显示屏最多支持10点触摸用户可以用手指控制页面元素的放大和缩小扬声器这款超极本是英特尔提供的参考设计,最终产品会有所不同音频和数据接口电源和数据接口外观底部的散热孔一个隐藏接口这款设备仍然配备了多功能卡槽搭载Windows 7新浪科技讯 北京时间3月12日上午消息,英特尔在上周举行的CeBIT 2012展会上展出了基于触摸屏参考设计的超极本,它采用英特尔最新Ivy Bridge处理器,便于微软下一代操作系统Windows 8在笔记本上操作.该超极本搭载

【20 亿美元赌注】英伟达推出深度学习芯片,人工智能进入主流时代

硬件能力 基于GPU并行处理的优势,Tesla P100能够实现数百CPU服务器节点性能.DGX-1采用NVIDIA新Pascal架构的Tesla P100显卡系列,数据处理速度是NVIDIA 此前Maxwell架构--才刚于2014年推出 --显卡系列的12倍.据NVIDIA官网消息,DGX-1共装入8组各内建16BG存储器的Tesla P100显卡,配置英特尔 E5-2698 v3 处理器,7 TB的SSD硬盘用作深度学习高速缓存,系统存储器部分最大可支持512GB DDR4的内存容量,半精

阿里妈妈发布“实效”大数据商用战略 剑指谷歌

从IT到DT,大数据正驱动营销领域发生深刻变革.2014年3月20日,主题为"忘记大数据"阿里妈妈第二届武林大会在杭州召开,世界500强.电商品牌.门户网站和无线应用开发者等分别从流量.商家.消费者和第三方服务商方角度,探讨大数据如何推动营销的"实效"变革. "忘记大数据"意味撇开数字表面,而注重数据背后的挖掘和分析.阿里妈妈事业部总经理王华在会上表示,今年,阿里妈妈将实施以技术驱动实效的大数据商用战略,构建以DMP(数据管理平台)为核心的营销体

欧德宁:2011年推首款英特尔处理器智能手机

新浪科技讯 http://www.aliyun.com/zixun/aggregation/17197.html">北京时间10月14日晚间消息,据国外媒体报道,英特尔CEO欧德宁(Paul Otellini)周三表示,英特尔处理器迟早将打入智能手机和平板带电脑市场,这是一场马拉松比赛,而不是短跑冲刺. 欧德宁称:"在平板电脑和智能手机市场,英特尔目前毫无建树.每个人都想知道我们将如何应对,但赢得这场战争需要时间." 10多年来,英特尔一直试图将其在PC市场的主导地位普

如何给英特尔致命一击——高通公布10纳米ARM服务器芯片

高通公司高级副总裁Anand Chandrasekher手持一块Centriq 2400芯片样品. 高通公司表示其已经开始向客户提供Centriq 2400样品,即由该公司打造的10纳米制程64位ARMv8-A通用型服务器级系统芯片. 这家总部位于加利福尼亚州圣迭戈的移动芯片设计厂商已经从AMD.英特尔.博通以及自身内部技术人才池中招募到大量工程师,共同致力于开发这一处理器家族.高通公司认为通过直接杀向10纳米制程水平,其将在与英特尔的竞争中保持领先--后者目前仍在销售14纳米服务器CPU. 在