NVIDIA展示研发成果:面向Exascle级别超级计算机芯片

  现在世界上最快的高性能计算系统部署在美国国家计算科学中心的“Jaguar”,一台Cray XT5">超级计算机,其浮点计算计算峰值能够达到223万亿次————大概就是每秒两千万亿次,这是2009年11月上线的成绩。不过看起来,这个记录也将要打破。下一代HPC的计算能力正在受到过分的关注,也将成为一个大惊奇。Exascale计算————大概是10的18次方,或者说是一百万的三次方每秒————是最近HPC委员会提到的最让人幻想的事情。

  但是在过去的12个月中,毫无疑问,Exascale计算已经不再是在HPC会议中被孤立的话题。

  全球各地的多台超级计算机系统已经超越了1PFLOPS(每秒一千万亿次浮点运算)的大关,下一个目标就是Exascale系统(1000PFLOPS,每秒一百亿亿次)。上周举行的SuperComputing 2010高性能计算大会上,NVIDIA首席科学家William Dally就预览了他们在这一领域的研发成果,一颗面向Exascle级别超级计算机的芯片,代号Echelon。

  该项目属于美国国防部下属DARPA(国防高级研究计划署)的“普及高性能计算计划”。计划的目标是在3721.html">2014年提供一台原型机架式服务器,功耗不超过57KW,性能达到1PFLOPS。下一步则是到2018年,建成达到Exascale性能的原型系统。

  目前,竞争这一项目的有来自NVIDIA、Intel、麻省理工学院和Sandia国家实验室的四组团队。William Dally在会议上表示,NVIDIA的主要着眼点是提升每瓦性能,并提供可以打造从Tegra到Tesla的各种产品的通用架构。他们计划在芯片内集成256MB SRAM,并尽量降低SRAM缓存延迟。

  为了进一步降低功耗,NVIDIA团队引入了根据不同应用需要的动态配置设计。目前,他们已经将每次浮点运算的功耗从Fermi架构的200皮焦,下降到Echelon 32nm试验架构下的10皮焦。

  当然,目前Echelon还只是停留在设计图纸和计算机模拟阶段的概念产品。其架构包括128个流式多处理器单元(SMU),每个SMU包含8个64-bit浮点运算核心(每个核心在一个时钟周期内可进行4次双精度浮点运算)。根据估算,1024个核心的Echelon芯片运算能力在10TFLOPS左右。而该芯片的手机版本将只有一组SMU,8个核心,双精度浮点运算能力78MFLOPS。

  和目前的架构相比,Echelon 1024个流处理单元的数量是Fermi的两倍,而且其核心在一个时钟周期内可进行4次双精度浮点运算,现有架构只有1次。

  和x86多核心处理器遇到的挑战一样,在1024核芯片上编程的难度可想而知。Dally承认在编程模型方面大家肯定会遇到海量的问题,而解决这些问题将成为未来10年甚至更长时间中的主要工作。

时间: 2024-09-16 17:18:52

NVIDIA展示研发成果:面向Exascle级别超级计算机芯片的相关文章

地平线新发布“最硬”研发成果AI芯片 为自己定了个“小目标”

12月20日下午,北京 中国大饭店,成立了两年多的知名人工智能创业企业地平线在沉浸许久后举行了重大的产品发布活动. 活动上推出完全自主研发.采用第一代地平线BPU(Brain Processing Unit)架构的人工智能芯片,包括面向智能驾驶的征程(Journey)1.0处理器和面向智能摄像头的旭日(Sunrise)1.0处理器,以及三个智能解决方案,分别为:智能驾驶.智能城市和智能商业. 地平线由前百度深度学习研究院常务副院长余凯博士于2015年7月所创立.在创业之初,便率先提出:自主研发嵌

Sun最终决定腰斩研发多年的16核Rock芯片

今天业界新闻里最撼人心的头条就是Sun最终决定腰斩研发多年的16核Rock芯片,由于Sun被甲骨文以56亿美元高价收购,所以业界一直就很担心不被甲骨文看重的芯片研发部分会不会被迫暂停或者腰斩,如今出了这条消息倒也不稀奇,但却有些惋惜,毕竟16核 Rock UltraSparc-RK处理器已经连续发展了5年之久. 6月16日消息,<纽约时报>援引http://www.aliyun.com/zixun/aggregation/18501.html">消息人士的话称,Sun取消了其代

Nvidia助力OpenAI非营利研究项目 赠AI超级计算机

上周,英伟达CEO黄仁勋(Jen-Hsun Huang)亲自在旧金山将一台DGX-1超级计算机赠与了OpenAI研究人员.DGX-1有着"装在盒子里的AI超级计算机"之称,它将由OpenAI非营利组织的研究团队用来探索与人工智能相关的诸多挑战. 其想法在于寻找OpenAI组织可以利用超级计算机的方法,因为它主要致力于类似为普通人打造人工个人助理.自动驾驶汽车和机器人的项目. DGX-1在今年早些时候首次亮相,Nvidia形容这一DGX-1系统是其首台专为人工智能打造的深度学习型超级计算

NVIDIA展示四核平板电脑 运行Windows 8

据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,英伟达在国际消费电子展(以下简称"CES")上展示了配置其Tegra 3四核处理器的平板电脑,其中包括一款运行Windows 8的原型机.预计微软要到今年年中以后才会发布Windows 8.英伟达展示的原型机运行Windows 8的Metro用户界面. Tegra 3采用ARM架构,时钟频率为1.3GHz.英伟达展示的另外一款原型机在播放高清视频,并通

吊打IBM的芯片 中国研发出第一款类脑芯片

人工智能技术(AI)现在已是火得不要不要的,各种传感器,机器学习,外围设备五花八门,可是,其核心的数据处理硬件架构仍基于经典的冯·诺依曼结构.冯·诺依曼结构已有七八十年历史,这就好比已经直立行走的智人,仍长着一颗猩猩的脑袋. 这就出现了冯·诺依曼瓶颈,也就是说CPU再快,也要等内存,因为CPU和内存之间的性能差距越来越大. 冯·诺依曼结构 冯·诺依曼结构中,计算模块和存储单元是分离的,CPU在执行命令时必须先从存储单元中读取数据.每一项任务,如果有十个步骤,那么CPU会依次进行十次读取,执行,再

研发新型大脑模拟器 神经网格芯片新突破

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;      [ 科技讯]5月29日消息,据媒体报道,科学家发明一种新型电路板,以人类大脑为模型的神经网格,可以模拟数百万神经细胞核数亿的突触,可以帮助人们 认识自己大脑的真正力量,为当前最 先进的模仿大脑设备. 研究人员正在进行BRAIN项目,是为了研发出测量大脑活动的新工具.神经网格的大小与iPad相当,有16个特制的"神经核心"芯片,这些芯片比

NVIDIA发布基于GPU的个人超级计算机

NVIDIA公司(Nasdaq代码:nvda)是全球可编程图形处理技术领袖.专注于打造能够增强个人和专业计算平台的人机交互体验的产品.公司的图形和通信处理器拥有广泛的市场,已被多种多样的计算平台采用,包括个人数字媒体PC.商用PC.专业工作站.数字内容创建系统.笔记本电脑.军用导航系统和视频游戏控制台等.NVIDIA全球雇员数量超过4000人.   全球各地众多OEM厂商.显卡制造商.系统制造商.消费类电子产品公司都选择NVIDIA的处理器作为其娱乐和商用解决方案的核心组件.在PC应用领域(例如

NVIDIA黄仁勋与他的智能工业革命

NVIDIA联合创始人兼CEO黄仁勋先生在本文中讨论了人工智能不久的将来.人工智能对产业的影响,以及企业如何抓住人工智能的商业机会.下面就让我们来了解下大咖的看法. 过去6周内,我们一直在世界各地接连召开NVIDIA开发者大会.GPU技术大会(GTC)始办于2009年,旨在培育使用大规模并行处理GPU实现高性能计算的新方法.GTC逐渐成为GPU深度学习的中心--引发现代人工智能大爆炸的新计算模式. 显而易见,人工智能正在呈现出星火燎原之势.仅过去2年间,GPU深度学习开发者数量即激增25倍之多.

面向万物互联的时序数据库HiTSDB

现在填写调查问卷,将优先获得公测资格 当前物联网的浪潮席卷全球,甚至于人们还没有真正意识到物联网的存在,但它已经无处不在 .个人智能手环,家庭里使用的智能空调,空气净化器,电饭煲,到社会化共享经济的共享单车,共享汽车,再到汽车制造车间生产线,IT机房的网络设备和服务器,交通监控和信号设备,甚至于全球气候的监测设备等等,这一切都通过物联网进行连接,设备和设备之间,人和设备之间万物互联. 透过现象看本质,物联网的本质是数据的采集和价值利用,而物联网领域最广泛和典型的数据类型就是时间序列数据.时间序列