每秒 180 万亿次，谷歌新一代 TPU 三大变化值得关注

在人工智能领域，训练一个先进的机器学习模型需要投入大量的计算资源。随着机器学习算法越来越多的应用在各个领域并表现出优越的性能，对于机器学习算法专业硬件的需求，也变得越来越强烈。

2016 年，谷歌首次公布了专为加速深层神经网络运算能力而研发的芯片——TPU，在计算性能和能耗指标上，TPU 的表现都远远优于传统 CPU、GPU 组合。（我们在上个月也曾发布过一篇文章，解析 TPU 耀眼成绩背后的原因）

在 5 月 19 日凌晨举行的谷歌 I/O 2017 大会上，谷歌正式发布了第二代 TPU。新的芯片相比初代产品，在性能、应用、服务方面再一次实现突破。

一、性能方面

新一代 TPU 能够同时应用于高性能计算和浮点计算。并且最高可以达到每秒 180 万亿次的浮点运算性能。相比而言，上周英伟达刚刚推出的 GPU Tesla2 V100，每秒只能达到 120 万亿次浮点运算。

相比第一代在功能上实现从无到有的突破，第二代的起点相对更高，开发团队也能更加集中资源来提升改进 TPU 的性能。相信通过硬件、软件的优化，后续第三代、第四代在性能取得持续突破的可能性非常大。

二、应用方面

第一代 TPU 没有特别提到组合应用、集群应用的功能，而且自身没有存储空间。第二代在发布会上直接就展示了一个包含 64 颗二代 TPU 芯片的 TPU pod 运算阵列。这个运算阵列，最多可以为单个 ML 训练任务提供每秒 11.5 千万亿次的浮点计算能力，大大加速机器学习模型的训练。

也有专业媒体提到，新的 TPU 在左右两侧各有四个对外接口，在左侧额外增加了两个接口。这些接口未来可能允许 TPU 芯片直接连接存储器，或者是直连高速网络，从而实现更加复杂的运算。理论上，开发者也能在此基础上设计更多的功能，添加更多的扩展。

三、服务方面

从 Cloud TPU 的命名上面，也可以直观地了解到，新一代的 TPU 将加入谷歌云计算平台，并对外提供云服务。这也就意味着 TPU 不再只是谷歌内部的独享服务，而将成为任何人都能轻松分享、应用的神器。

这里就看出谷歌比较贼的地方了，第一代刚出来的时候，藏着掖着的，还特别低调地说只打算自己内部使用。二代研发出来，直接就上云了：硬件不对外销售，服务可以啊。

如果是直接的硬件销售，很多中小型的公司（比如我们公司：智慧思特）可能会更加偏向于选用 GPU：应用范围更广，可以根据需要安排处理不同的任务。大型的公司（比如阿里、Facebook），ML 任务量非常大，才会考虑采购 TPU，甚至出于经费、效率的考虑，自主组建团队进行研发（比如这次谷歌自己做 TPU，Facebook 也有过自主研发数据中心硬件设备的报道）；

对外销售服务的话，首先是激活了中小企业的这块需求市场，用户只需根据使用时间进行付费，节省了成本。另外，大型企业自身的资源利用率也有了很大的提升，摊薄了成本。比如阿里，为了应对双十一准备的海量服务器，在闲暇时间可以对外提供云计算服务。最后，避免了跟硬件厂商（比如英伟达）直接的利益冲突。

四、小结

综合来说，TPU，尤其是 Cloud TPU 让大型互联网公司印证了自主研发硬件的可行性。

性能上，针对自主业务进行成倍优化，节约硬件采购、数据中心建设、时间消耗等成本；应用上，可以灵活地与现有设施、设备进行组合、扩展；服务上，通过云实现资源的对外销售，赚取收益。

对应的，根据企业自身业务的不同，未来可能出现的定制化硬件设备也会不一样。比如针对在线交易数据处理的 APU？针对在线社交互动的 FPU？

至于如何评价 Cloud TPU，大概可以算是标志着人工智能专业硬件时代的到来吧。

====================================分割线================================

本文作者：AI研习社

本文转自雷锋网禁止二次转载，原文链接

时间： 2024-10-04 06:21:10

每秒 180 万亿次，谷歌新一代 TPU 三大变化值得关注

每秒 180 万亿次，谷歌新一代 TPU 三大变化值得关注的相关文章

美国部署最新超级电脑每秒运算5340万亿次

中国首台万亿次计算机诞生仅微波炉大小

中国首台万亿次计算机研制成功集成龙芯8核CPU

中国首台万亿次高性能计算机研制成功成本低于20万元，功耗低于9

我国各地云计算规划点评 2015年产业规模1万亿

国产万亿次高性能计算机诞生

首台基于龙芯3A国产万亿次高性能计算机诞生

阿里巴巴电商零售额突破1万亿

汽车后万亿市场谁将会是最后的赢家？