AMD 5XXX 系列显卡的 peak bandwidth计算

在ATI Stream Computing Programming Guide中,例举了AMD 5系列显卡的参数信息。

我比较关注其中Peak bandwidths的计算,以便在opencl程序测试bandwidth利用率。

下面,我以5870为例,探讨一下如何计算得到这些结果:

    L1 cache的 peak bandwidth(L1<=>ALU) = compute units* Wavefront Size/compute Unit *Engine clock = cu数量*每个cu的wave大小*显卡系统时钟频率

= 20 * 64 * 0.85 = 1088 GB/s

注:在AMD GPU中,每个wave包含64个thread.

L2 cache peak bandwidth(L1<=>L2) = Number of Channels * wavefrontSize * Engine clock = 内存通道数量*wave大小*显卡系统时钟频率

= 8 * 64 * 0.85 = 435.2 GB/s

注:在AMD 8XXX显卡中,每个mc通道对应一个64K的L2 cache。

Global memeory peak rate(L2<=>Memory) = Number of Channels * memory pin rate * bits per chanel/8 = 内存通道数量*memory pin rate*每个channel位宽/8

= 8 * 4.800 * 32/8 = 153.6 GB/s

注:在cypress中,用的GDDR5,mclk是1200MHZ, GDDR5的date rate 是4,所以memory pin rate = 1200 * 4 = 4800Mb/pin

除以8是转化为字节。

 

Const cache read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 16 * 320 * 0.85 = 4352 GB/s

注:5870中的hardware参数

另外需要注意的对于consant buffer,只有直接地址访问时候,才能达到4352GB/s的峰值,如果通过索引方式,参考上表,用4或这0.6代替16.

LDS Read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 8 * 320 * 0.85 = 2176 Gb/s

注:LDS(对应cl中local memory)带宽计算方式和const buffer一样。

GPR read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 48 * 320 * 0.85 = 13056 GB/s

注:GPR(通用寄存器,对应cl中worktime 使用的private变量,对于kernel中局部变量,shade compiler一般都为其分配GPR)带宽计算方式和const buffer一样

下图为58xx的性能参数:

时间: 2024-09-20 18:24:54

AMD 5XXX 系列显卡的 peak bandwidth计算的相关文章

MAC OS X 10.8.3 beta系统支持Radeon HD 7000系列显卡

苹果OS X 10.8.3系统的第一个beta版悄悄地对AMD Radeon HD 7000系列显卡提供了支持,这或许意味着此显卡即将落户新款Mac Pro桌面计算机队伍.OS X 10.8.3的beta版对AMD Radeon HD 7XXX系列显卡的支持是网站Netkas.org在本周发现的.特别值得一提的是,系统提供了对代号Tahiti的Radeon HD 7900系列显卡的支持,具体包括7970和7950. Radeon HD 7970和7950在配置方面除了采用3GB的GDDR5内存之

Windows优化大师Nvidia系列显卡的温度检测

  Windows优化大师在其官网发布了V7.82 Build 8.602更新版本,新版的一大亮点是新增了Nvidia系列显卡的温度检测功能,相信此举会令众多网友,特别是游戏玩家欣喜不已. 在以前,游戏的画面相对简单,图像处理量小,因此显卡的工作负担也小.但随着游戏画面不断的提升,3D图象的大量运用,显示核心需要处理的数据也越来越大,此时核心的运转频率成几何级数增长,功耗也随之飙升.不少玩家的电脑在游戏中出现花屏.黑屏--特别自媒体曝出某款人气网游致显卡损坏后,网友对显卡温度的关注更是提升到前所

关于GeForce fx5200系列显卡的Linux下驱动的安装

最近很多人问到Linux下如何安装GeForce fx5200 系列显卡的问题,Nvidia已经在2005年3月11号发布了最新的驱动,详见: http://www.nvidia.com/object/linux_disp...2_1.0-7174.html 驱动下载地址: http://download.nvidia.com/XFree86/Linu...0-7174-pkg1.run 安装过程比较简单: 输入 sh NVIDIA-Linux-x86-1.0-7167-pkg1.run 安装驱

AMD全新旗舰显卡首曝:32GB HBM2 7nm制程

AMD显卡要放大招? AMD的新一代显卡目前只推出了中低端核心Polaris 10/11,而真正的大招还在后边.VideoCardz获悉了未来AMD GPU显卡的路线图,可靠度相当高. Vega 10 AMD的大核心代号"Vega"(织女星),并有多个版本,其中打头阵的是"Vega 10",2017年第一季度发布. 它会采用14nm工艺,GFX9全新架构--现在的Polaris架构内部代号为GFX8,上一代Fiji则是GFX7. 拥有64个执行单元(4096个流处理

算法系列(二十) 计算中国农历(二)

所谓的"天文算法",就是利用经典力学定律推导行星运转轨道,对任意时刻的行星位置进行精确计 算,从而获得某种天文现象发生时的时间,比如日月合朔这一天文现象就是太阳和月亮的地心黄经(视黄 经)差为0的那一瞬间.能够计算任意时刻行星位置的一套理论就被称为星历表,比较著名的星历表有美 国国家航空航天局下属的喷气推进实验室发布的DE系列星历表,还有瑞士天文台在DE406基础上拓展的瑞 士星历表等等.根据行星运行轨道直接计算行星位置通常不是很方便,更何况大多数民用天文计算用不上 那么多精确的轨道参

AMD楚含进:异构计算就是计算你想要的东西

AMD中国开发合作与解决方案中心总监楚含进在论坛发言时表示,异构计算最后想实现问题,就是计算是你想要的东西,这里面第二个问题.异构计算给大家带来最重要,现在讲计算最大化,异构计算最终带来计算最优化的问题.这种优化能够表达出整个企业,整个产品核心竞争力就是在最优化,不是最大化,最优化表现成本优化,功耗优化,和系统性能优化. [IT商业新闻网讯] (记者 于麟)异构计算技术从80年代中期诞生起,由于它能经济有效地获取高性能计算能力.可扩展性好.计算资源利用率高.发展潜力巨大,一直为并行分布计算领域中

DevOps系列二:事件驱动型计算会超过微服务吗?

我们在<DevOps系列一:认识事件驱动型计算>中介绍了事件驱动型计算对现代世界的影响.本文是系列二,对比事件驱动型计算与容器和微服务. 面向群众的消息队列 在某种程度上说,旧的东西会变成新的.对于Iron.io和StackStorm公司的产品来说,老式的消息队列是软件运行的核心.Iron.io甚至还单独销售一款消息队列产品IronMQ,这个产品能触发姐妹软件IronWorker的事件. 但是,StackStorm公司的Powell说新的消息队列跟以前还是有一些不一样的,"新的消息队

AMD 780G/790GX显卡组建混合交火图文指南

关于主板的交火的硬件设置请参阅风信网的这篇文章: 实战映泰TPower I45与ATI显卡交火桥接图文指南原文地址:http://www.ithov.com/article/118077.shtml 1.按照目前AMD官方资料显示组建Hybrid Crossfire仅能搭配以下显卡:AMD HD 2400XT/2400PRO/3450/34702.请在BIOS中设置共享256M显存或更大(系统内存需要达到2GB或更大3.BIOS中将"surroundview" 项设置Enabled4.

算法系列(二十) 计算中国农历(一)

世界各国的日历都是以天为最小单位,但是关于年和月的算法却各不相同,大致可以分为三类: 阳历--以天文年作为日历的主要周期,例如:中国公历(格里历) 阴历--以天文月作为日 历的主要周期,例如:伊斯兰历 阴阳历--以天文年和天文月作为日历的主要周期,例如:中国农 历 我国古人很早就开始关注天象,定昼夜交替为"日",月轮盈亏为"月",寒暑交替为"年" ,在总结日月变化规律的基础上制定了兼有阴历月和阳历年性质的历法,称为中国农历.本文将介绍中国 农历的