华夏芯横空出世,全球首款HSA芯片靠谱吗?

2016年初,在北京亦庄召开的“高性能异构计算及网络安全研讨会”上,华夏芯(北京)通用处理器技术有限公司即将推出全球首款完全支持异构系统架构(HSA)的处理器。

先来看看媒体是怎么说的(由于篇幅冗长,为方便阅读,笔者就摘录重点以供参考)

据《中国电子报》报道说,“处理器IP核与生态系统两方面问题的解决,将使中国自主处理器产业有望在下一代异构计算时代,取得更快速的发展,赶上国际先进水平。”摘录如下:

1、华夏芯的突破表明我国在新一代异构计算上取得重大进展,有望在原本相对空白的处理器IP(知识产权)核授权领域打破国外垄断,彻底改变中国处理器产业的核心知识产权基本依赖于国外许可的被动局面。

2、从软件角度看,应用开发将变得轻松,任何程序都不必费心考虑不同处理器内核之间的存储差异。这将给计算性能以革命性的提高。

3、是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权。同时,华夏芯还可进行SoC定制设计服务。这将有效改善国产IP核设计及许可上的短板。

那么,什么是异构系统架构?《中国电子报》的报道有多少真材实料,又有多少水分呢?

|什么是异构计算?

异构计算主要是指使用不同类型指令集(X86、ARM、MIPS、POWER......)和体系架构的计算单元(CPU、GPU、DSP、ASIC、FPGA......)组成系统的计算方式。

举例来说,AMD的APU其实就属于异构计算。

【编者注:AMD,即超微半导体公司。AMD公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、APU、主板芯片组、电视卡芯片等)、闪存和低功率处理器解决方案,是目前业内唯一一个可以提供CPU、GPU、主板芯片组三大组件的半导体公司。】

异构计算主要的优点有:

一是可以让各个计算单元执行自己最擅长的任务。术业有专攻,CPU、GPU、DSP、FPGA等计算单元各有所长,在引入特定计算单元,让计算系统变成混合结构,就能让CPU、GPU、DSP、FPGA执行自己最擅长的任务,并相对于同构计算可能有一定性能优势,或性能功耗比优势。

二是可以避免显式拷贝。最新的异构计算理论上要求实现CPU、GPU、DSP等计算单元实现内存统一寻址,使CPU、GPU等计算单元可以共享内存,不必将数据复制一份到对方的内存区域中。

异构计算并非新概念,AMD、ARM等公司早已成立异构系统架构基金会 (HSA Foundation)。另外,异构计算在超算领域已经有一定的应用,而且已经有取代同构计算的发展趋势。

举例来说,美国泰坦(每个计算节点由1个AMD Opteron 6274处理器和1个NVIDIA Tesla K20加速器组成),中国天河2号(每个计算节点由2个E5和3个Xeon Phi组成)。中国正在升级或建设的3台100P超算也都采用异构计算。

相对于上述提到泰坦和天河2号,由于CPU和加速器无法共享内存,会因为需要显式拷贝而导致性能损失,最新的异构系统架构的优势在于可以发展成统一的内存编制——在理论上,可以实现CPU、GPU、DSP等计算单元实现内存统一寻址,使各个计算单元交互数据时,不再需要将自身内存区域中现有的数据复制一份到对方的内存区域中,而是可以直接通过相同的地址访问到,在内存和显存的设计科学合理的前提下,实现性能提升。

另外,在编程方面,可以避免显式拷贝,使程序员们不用介入不同计算单元的内存管理,能有效降低编程的繁琐程度。

当然,理想很丰满,现实很骨感——不同核心直接cache级别的互通始终是HSA架构无法攻克的难关——虽然AMD的APU通过将CPU和GPU集成到一个芯片上实现了共享内存。但CPU和GPU的Cache却还没有做到统一,不同核心直接cache级别的互通,而这也是HSA架构最大的技术难点(CPU,GPU,DSP的缓存模型不同)。即便AMD等厂商给HSA画了非常美好的蓝图,但就现阶段而言,HSA的优势并不大。

| 华夏芯的技术究竟如何?

华夏芯未必能实现Cache级别的互通。

在HSA方面,AMD显然是最有发言权的厂商之一,但其APU也只实现了CPU+GPU,而且实现了内存共享,但CPU和GPU的Cache却还没有做到统一,而华夏芯言之凿凿,“该产品在架构层面成功整合了CPU、GPU、DSP,实现了异构多核的内存统一寻址,使不同内核真正无缝地紧密联系在一起,”一家初出茅庐公司的技术水平已经超越AMD这样的老牌IC设计公司了,这实在令人难以置信,不知道AMD看到这段文字做何感想。

华夏芯所谓“自主知识产权”存在水分

根据《中国电子报》的报道,“华夏芯正在开发并即将推出的‘统一处理器平台’是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权。”这段文字所蕴藏的消息实在让人难以置信。

虽然国内IC设计厂商推出了不少产品,但大多都是购买购买国外 IP核授权,或者就是国外芯片的马甲,能做自主设计CPU或GPU或DSP的单位如凤毛麟角,更遑论同时具备三者的设计能力。

因此,笔者是不太相信一家在此之前从未听闻,也没有什么技术积累的厂商,能横空出世,并突然间同时具备CPU、GPU、DSP的设计能力。

而自主指令集虽然实现难度并不大,比如深圳中微电就采用了自主指令集,但是由于不可能兼容现有的软件生态,在商业化方面基本不具备市场前景。在党政军市场早已被龙芯、申威、飞腾等自主芯片瓜分完毕,武器装备、人造卫星、航天设备等特殊领域的嵌入式芯片也已“名花有主”的情况下,采用自主指令集既不具备商业市场前景,也无法在党政军市场赢得一席之地。

加上领导非常喜欢“自主知识产权”的因素,所谓“从指令集、微架构到工具链具有完全自主知识产权”很有可能有相当大的水分。

宣传言过其实

就现阶段而言,HSA的优势并不明显,还远远达不到“给计算性能以革命性的提高”的地步。

而且就软件而言,虽然APU统一寻址能方便编程,能使程序员们不用介入繁琐的CPU-GPU内存管理,但《中国电子报》对华夏芯的报道中称“任何程序都不必费心考虑不同处理器内核之间的存储差异”——消除CPU、GPU、DSP、ASIC、FPGA等计算单元之间的存储差异,即便是AMD也只能表示:“臣妾做不到啊!”

|国内在异构计算方面做得如何?

虽然异构计算是老概念了,但由于现阶段并不具备多少比较优势,因而只在超算等为数不多的领域取得了明显的成绩,有取同构计算而代之的趋势。

相对于华夏芯这样的处于纸面上的产品,上海高性能集成电路设计中心设计的国产众核芯片则是比较成功的例子,该芯片有数个主核心和两百余个从核心,主核心主要负责逻辑运算,两百余个从核心可以使芯片拥有非常高的理论双精浮点性能和良好的性能功耗比(小道消息称10-15G/W),其峰值双精度浮点运算速度超过每秒3万亿次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的众核芯片)。

结合《我国首个研究完全自主知识产权的异构计算处理器实验室破茧》的新闻看,华夏芯通用处理器技术有限公司目前还处于草创阶段,其官方网站也非常简陋,除“成为国内嵌入式处理器领域拥有自主知识产权的一流设计企业”表示华夏芯主攻嵌入式处理器外,基本没有任何有价值的信息,华夏芯现在有可能依旧处于草台班子阶段。加上“从指令集、微架构到工具链具有完全自主知识产权”需要非常深厚的技术积累,并非朝夕之间可以铸就。

笔者斗胆推测,所谓“是全球首次推出完全支持HSA标准的CPU+GPU+DSP的处理器IP核平台,它从指令集、微架构到工具链具有完全自主知识产权”有很大的水分,即将推出的产品很有可能就是一款集成了CPU+GPU+DSP的SOC,以目前华夏芯的公开资料和媒体的相关报道,华夏芯颇有套取政策之利的嫌疑。

本文转自d1net(转载)

时间: 2024-09-28 15:36:34

华夏芯横空出世,全球首款HSA芯片靠谱吗?的相关文章

甩掉Intel,三星联合IBM研发全球首款5nm芯片

6月5日消息 此前,Intel已经确认会在今年推出第八代酷睿处理器,新一代处理器依然由14nm工艺制造.而在Intel继续坚持14nm工艺的时候,据外媒CNET报道,三星联合IBM已经研发出全球首款5nm工艺芯片.从14nm到5nm,中间隔着10nm和7nm,三星狂甩三代工艺啊. 三星联合IBM日前宣布了一项名为nanosheets的技术.得益于该技术,芯片制造商能够将更多的晶体管容纳到更小的芯片组里.跟目前的芯片相比,他们预计,在同等水平的功耗下,可以提升40%性能表现.或者在得到同样的性能表

瑞芯微全球首款3D+五点触控电容Android手机出现

如果你已经熟悉长江3号,那么可以再来认识下长江5号和全球首款3D+五点触控电容http://www.aliyun.com/zixun/aggregation/1996.html">Android手机,在2010中国国际通信展上,我们看到了样机,长 江5号走出了比较自主的外观设计,而3D+五点触控电容也是第一次见到,现在是工程机阶段,其它卖点还包括3.5寸的WVGA(480*800),500 万像素自动对焦摄像头,WIFI,蓝牙,GPS,256MB DDR+512MB NAND,长江5号可以

台积电、ARM联手:打造全球首款7nm芯片

台积电今天宣布,计划联合ARM.Xilinx.Cadence,共同打造全球首个基于7nm工艺的芯片. 更确切地说,这四家半导体大厂将采用台积电7nm FinFET工艺,制造一款CCIX(缓存一致性互联加速器)测试芯片,2018年第一季度完成流片. 该芯片一方面用来试验台积电的新工艺,另一方面则可以验证多核心ARM CPU通过一致性互连通道与片外FPGA加速器协作的能力. 这款测试芯片基于ARMv8.2计算核心,拥有DynamIQ.CMN-600互连总线,可支持异构多核心CPU. Cadence则

中国芯威武!搞定全球首款异构运算处理器

2016年初,在北京亦庄召开的"高性能异构计算及网络安全研讨会"上,华夏芯(北京)通用处理器技术有限公司即将推出全球首款完全支持异构系统架构(HSA)的处理器. 先来看看媒体是怎么说的(由于篇幅冗长,为方便阅读,笔者就摘录重点以供参考) 据<中国电子报>报道说,"处理器IP核与生态系统两方面问题的解决,将使中国自主处理器产业有望在下一代异构计算时代,取得更快速的发展,赶上国际先进水平."摘录如下: 1.华夏芯的突破表明我国在新一代异构计算上取得重大进展,

SanDisk闪迪发布全球首款48层3D NAND芯片

   全球领先的闪存存储解决方案提供商SanDisk闪迪公司(纳斯达克交易代码:SNDK)今日发布了256 Gigabit(GB) 3位元型(X3) 48层3D NAND芯片,并携手其合作伙伴东芝公司在日本四日市启动3D NAND试产线. SanDisk闪迪公司执行副总裁.主管存储技术的Siva Sivaram博士表示:"我们很高兴地宣布我们首款量产3D NAND芯片的发布.它是全球首款256 GB三位元型(X3)芯片,采用我们业内领先的48层BiCS技术1开发,展现了SanDisk闪迪在X3技

全球首款集成DARBEE芯片 OPPO蓝光DVD带来全新视觉体验

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 近日,OPPO蓝光再度发力,推出其最新产品BDP-103D.作为全球首款集成DARBEE视频处理芯片的蓝光播放机,此款产品在荣获欧美多项顶级大奖的蓝光播放机BDP-103基础之上,对视频部分进行升级,为广大玩家带来全新的视觉体验以及更多的可玩性.正如日本权威影音杂志<HiVi>资深影音评论家麻仓怜士先生曾这样形容DVP技术带来的体

ARM完成全球首款10nm工艺芯片:Artemis架构

ARM今天宣布,已经与台积电合作制成全球首款10nm工艺芯片,该芯片采用全新顶级架构Artemis. ARM透露,该10nm芯片的流片工作实际上在2015年12月份就完成了,Artemis作为ARM全新的顶级架构尚未正式发布. 台积电的10nm工艺与16nm工艺相比,晶体管集成度为其2.1倍,能够提升11%-12%的性能,或者同频率降低30%的功耗.该工艺预计今年年底投入使用,全新的Artemis架构也将取代当前的Cortex-A72. 本文转自d1net(转载)

AMD全球首款12核处理器登陆中国

(记者 焦立坤)AMD全球首款12核处理器昨日登陆中国,据称这是业界迄今"芯"最多.功能最为强大的服务器CPU,无疑将淬火服务器领域的竞争态势. 在昨天举行的AMD皓龙6000系列平台发布会暨盛大AMD云计算联合实验室启动联合发布会"活动上,AMD宣布皓龙 6000系列服务器平台正式登陆中国,同时盛大AMD云计算联合实验室也正式揭幕. 这款令业界瞩目的CPU,最大的亮色是世界首款12 核 x86处理器,其性能是上一代6核处理器的两倍,其中整体性能提高了88%,浮点性能提高达1

【新智元人工智能创业家】陈天石:寒武纪,全球首款深度学习专用处理器

日前,GPU巨头企业NVIDIA宣布推出致力于加速人工智能和深度学习的芯片Tesla P100,以及全球首款面向深度学习的超级计算机DGX-1.不过,在陈天石看来,NVIDIA的这一系列组合拳对服务器市场虽然会有较大影响,但由于价格太高,只有大公司才买得起单,而且也只是因为市场上暂时没有替代品.   "未来NVIDIA的这个市场仍面临低成本专用处理器和FPGA的冲击,"陈天石说:"大家可以看老黄说的话,他特意提了这两类解决方案,正说明NVIDIA也意识到它们对自身地位的冲击.