英伟达：超高的性能表现……足以支持AI应用

英伟达公司已经为AI应用设计出两款全新Tesla处理器，分别为P4与P40。

这款16纳米FinFET GPU采用英伟达Pascal架构，且延续今年6月发布的P100命名方式。其中P4为单高、单长PCIe卡，用于向外扩展服务器；而更为强大的P40则着眼于向上扩展设备。

这一新组合主要用于推理工作，即在硬件当中内置一套经过训练的AI模型、部分对应软件以及类似摄像头视频或者麦克风音频的输入数据，并由其据此提供决策、语音到文本转换以及对象分类等功能。

如今我们的深度学习模型已经发展到新的阶段——即利用大规模训练数据立足强大系统方可起效。但在另一方面，推理功能则需要奋起直追：我们必须能够利用数字运算处理器向复杂的神经网络推送数据，并借此进行实时决策。

这对于英特尔、英伟达及其它芯片厂商而言不啻为一个好消息，这意味着他们能够出售更多高端芯片以实现训练及推理。但坏消息在于，这意味着将有更多数据被发送至云端，并在那里进行处理，而后将结果发送回我们的手机、平板设备乃至其它小型计算平台。如此一来，我们需要高度依靠稳定的互联网连接方案。

英伟达公司高级产品经理Roy Kim告诉我们，未来的发展趋势将在于“混合”方案，即在设备之上建立低精度模型，从而保证决策可立即完成，而后再决定是否利用更为强大的后台处理资源返回更加精确的处理结果。目前最先进的图像识别系统拥有超过150层神经元，Kim指出，因此我们目前更需要在推理层面投入研究精力。

有什么新内容？

为了最大限度提升推理通量，我们的物联网云端个人助手不会在处理问题方面耗费太多时间。英伟达公司已经向其Pascal架构中添加了两条新指令：IDP2A与IDP4A。二者能够执行双及四元素8位矢量点积计算，并借此累加为32位。

基本上，数据科学家们认为8位精度已经足以支撑神经网络，；这意味着如果需要进一步提升精度以获得16位或者32位值，则可再经由GPU完成相关运算。事实上，当处理作为深层感知输入数据的信息时，我们并不需要太高的计算精度。

谷歌公司的TensorFlow加速ASIC同样使用8位精度进行推理，而英特尔与AMD芯片亦可在8位矢量计算领域带来出色的性能表现。

这是什么原理？

矢量点产品已经成为人工神经网络的核心所在。目前全部热门AI的核心皆为数学方程串，即从输入数据中或者普通英文中提取特性，或者从传感器及摄像头端获取有价值信息等，而后再利用软件对其进行处理。我们可以通过组合或者训练帮助网络接收数据流，而后通过不同加权机制对其进行分流，直到找出正确答案。这种加权机制贯穿整个训练过程，旨在检测输入数据的重要特性。

以下单个神经元示意图看起来非常复杂，但请相信我，并没有大家想象的那么可怕。首先我们在左侧获得从x1到xn的多个值，其经由n条路径向右推进。每个xi输入值都乘以其路径权重wi，而后再将这些乘积结果相加。这就是所谓点生成机制。在此之后，该加和会被引入一个阈值或者激活函数，输出结果则供网络中的下一感知体系进行使用。

将其加以组合，我们就能够得到以下这套基本网络，其中包含2个输入结果，3个神经元与1个输出结果。

让我们着眼于顶部神经元。其使用M输入值，将其乘以加权θ₁，而后将结果添加至J再乘以θ₂。由此得到的加和经由激活函数运行，并将结果交付至最右端的神经元。

因此如果忽略激活函数，那么顶端神经元的点生成输出结果为(Mxθ₁) + (Jxθ₂)。现在想象一下，如果这些变量各为8位整数，范围在-127到127之间，或者0到255之间。假设这些点生成运算可每秒执行47万亿次，且全部加和结果都能够提交至网络的下一阶段，那么这正是英伟达P40的定位所在。也正因为如此，英伟达公司才决定使用8位生成加速计算方案。

英伟达方面宣称，其P4能够在理想状态下每秒执行21.8万亿次8位整数运算，而P4在利用AlexaNet训练模型时，第瓦每秒图像分类数量可达到英特尔至强E5 CPU的“40倍”。

当然，这一切都要求我们的AI模型采用8位加权机制。这显然是一种非常高效的语音识别模型，同时亦可用于识别图像及完成其它类似的推理分类工作。

以下为Tesla GPU家族各产品的详尽规格数据，其中包括全新P4与P40：

Tesla 加速器	Tesla M4	Tesla P4	Tesla M40	Tesla P40
GPU	Maxwell GM206	Pascal GP104	Maxwell GM200	Pascal GP102
流多处理器	8	20	24	30
FP32 CUDA 核心 / SM	128	128	128	128
FP32 CUDA 核心/ GPU	1024	2560	3072	3840
基本时钟	872 MHz	810 MHz	948 MHz	1303 MHz
GPU 启动时钟	1072 MHz	1063 MHz	1114 MHz	1531 MHz
INT8 TOP/s	NA	21.8	NA	47.0
FP32 GFLOP/s	2195	5442	6844	11758
FP64 GFLOP/s	69	170	213	367
纹理单元	64	160	192	240
内存接口	128-bit GDDR5	256-bit GDDR5	384-bit GDDR5	384-bit GDDR5
内存带宽	88 GB/s	192 GB/s	288 GB/s	346 GB/s
内存大小	4 GB	8 GB	12/24 GB	24 GB
二级缓存大小	2048 KB	2048 KB	3072 KB	3072 KB
注册文件大小/ SM	256 KB	256 KB	256 KB	256 KB
注册文件大小/ GPU	2048 KB	5120 KB	6144 KB	7680 KB
共享内存大小 / SM	96KB	128KB	96KB	128KB
计算容量	5.2	6.1	5.2	6.1
TDP	50/75 W	75 W (50W option)	250 W	250 W
晶体管数量	2.9 billion	7.2 billion	8 billion	12 billion
GPU晶片大小	227 mm²	314 mm²	601 mm²	471 mm²
制造工艺	28-nm	16-nm	28-nm	16-nm

P4与P40将于今年10月与11月分别开始销售。如果大家希望早点熟悉这类新方案，则可选择英伟达公司的Pascal Titan X显卡，其发布于今年7月且同样拥有44 TOPS的8位整数运算能力。P40基本上就是一款略微强化过的Titan X。

与此同时，英伟达方面还发布了TensorRT（一套运行于其硬件之上的推理引擎）外加Deepstream软件开发工具包，用于识别高分辨率（HEVC、VP9）视频中的人物与对象。

原文发布时间为：2016年9月14日

本文作者：孙博

时间： 2024-08-30 01:13:18

英伟达：超高的性能表现……足以支持AI应用

英伟达：超高的性能表现……足以支持AI应用的相关文章

NVIDIA(英伟达)与蚁视战略合作全面支持蚁视软硬件产品

人类离“无癌时代”还有多远？英伟达推出超算平台CANDLE，用 AI 消灭癌症

英伟达面向开发者群体建立深度学习课程

异构智能吴韧：对标英伟达和 Google ，要做专用的 AI 芯片

同是利润增长：英伟达与英特尔股价表现迥异背后

【干掉英伟达？】DeepMind CEO哈萨比斯投资的AI芯片，性能超越GPU 100倍

【VMware】VMware和英伟达联手提高虚拟桌面性能

英伟达回应谷歌威胁论：Volta GPU性能远强于二代TPU

英伟达初尝移动市场甜头黄仁勋小步快跑想称霸