AMD 5XXX 系列显卡的 peak bandwidth计算

在ATI Stream Computing Programming Guide中，例举了AMD 5系列显卡的参数信息。

我比较关注其中Peak bandwidths的计算，以便在opencl程序测试bandwidth利用率。

下面，我以5870为例，探讨一下如何计算得到这些结果：

L1 cache的 peak bandwidth(L1<=>ALU) = compute units* Wavefront Size/compute Unit *Engine clock = cu数量*每个cu的wave大小*显卡系统时钟频率

= 20 * 64 * 0.85 = 1088 GB/s

注：在AMD GPU中，每个wave包含64个thread.

L2 cache peak bandwidth(L1<=>L2) = Number of Channels * wavefrontSize * Engine clock = 内存通道数量*wave大小*显卡系统时钟频率

= 8 * 64 * 0.85 = 435.2 GB/s

注：在AMD 8XXX显卡中，每个mc通道对应一个64K的L2 cache。

Global memeory peak rate(L2<=>Memory) = Number of Channels * memory pin rate * bits per chanel/8 = 内存通道数量*memory pin rate*每个channel位宽/8

= 8 * 4.800 * 32/8 = 153.6 GB/s

注：在cypress中，用的GDDR5，mclk是1200MHZ, GDDR5的date rate 是4，所以memory pin rate = 1200 * 4 = 4800Mb/pin

除以8是转化为字节。

Const cache read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 16 * 320 * 0.85 = 4352 GB/s

注：5870中的hardware参数

另外需要注意的对于consant buffer,只有直接地址访问时候，才能达到4352GB/s的峰值,如果通过索引方式，参考上表，用4或这0.6代替16.

LDS Read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 8 * 320 * 0.85 = 2176 Gb/s

注：LDS(对应cl中local memory)带宽计算方式和const buffer一样。

GPR read peak rate = peak read bandwidth per stream core * pe number * engine clock = 每个pe 的读带宽*pe数量*系统时钟频率

= 48 * 320 * 0.85 = 13056 GB/s

注：GPR(通用寄存器，对应cl中worktime 使用的private变量，对于kernel中局部变量，shade compiler一般都为其分配GPR）带宽计算方式和const buffer一样

下图为58xx的性能参数：

时间： 2024-09-20 18:24:54

AMD 5XXX 系列显卡的 peak bandwidth计算的相关文章

MAC OS X 10.8.3 beta系统支持Radeon HD 7000系列显卡

苹果OS X 10.8.3系统的第一个beta版悄悄地对AMD Radeon HD 7000系列显卡提供了支持,这或许意味着此显卡即将落户新款Mac Pro桌面计算机队伍.OS X 10.8.3的beta版对AMD Radeon HD 7XXX系列显卡的支持是网站Netkas.org在本周发现的.特别值得一提的是,系统提供了对代号Tahiti的Radeon HD 7900系列显卡的支持,具体包括7970和7950. Radeon HD 7970和7950在配置方面除了采用3GB的GDDR5内存之

Windows优化大师Nvidia系列显卡的温度检测

Windows优化大师在其官网发布了V7.82 Build 8.602更新版本,新版的一大亮点是新增了Nvidia系列显卡的温度检测功能,相信此举会令众多网友,特别是游戏玩家欣喜不已. 在以前,游戏的画面相对简单,图像处理量小,因此显卡的工作负担也小.但随着游戏画面不断的提升,3D图象的大量运用,显示核心需要处理的数据也越来越大,此时核心的运转频率成几何级数增长,功耗也随之飙升.不少玩家的电脑在游戏中出现花屏.黑屏--特别自媒体曝出某款人气网游致显卡损坏后,网友对显卡温度的关注更是提升到前所

关于GeForce fx5200系列显卡的Linux下驱动的安装

最近很多人问到Linux下如何安装GeForce fx5200 系列显卡的问题,Nvidia已经在2005年3月11号发布了最新的驱动,详见: http://www.nvidia.com/object/linux_disp...2_1.0-7174.html 驱动下载地址: http://download.nvidia.com/XFree86/Linu...0-7174-pkg1.run 安装过程比较简单: 输入 sh NVIDIA-Linux-x86-1.0-7167-pkg1.run 安装驱

AMD全新旗舰显卡首曝：32GB HBM2 7nm制程

AMD显卡要放大招? AMD的新一代显卡目前只推出了中低端核心Polaris 10/11,而真正的大招还在后边.VideoCardz获悉了未来AMD GPU显卡的路线图,可靠度相当高. Vega 10 AMD的大核心代号"Vega"(织女星),并有多个版本,其中打头阵的是"Vega 10",2017年第一季度发布. 它会采用14nm工艺,GFX9全新架构--现在的Polaris架构内部代号为GFX8,上一代Fiji则是GFX7. 拥有64个执行单元(4096个流处理

算法系列（二十）计算中国农历（二）

所谓的"天文算法",就是利用经典力学定律推导行星运转轨道,对任意时刻的行星位置进行精确计算,从而获得某种天文现象发生时的时间,比如日月合朔这一天文现象就是太阳和月亮的地心黄经(视黄经)差为0的那一瞬间.能够计算任意时刻行星位置的一套理论就被称为星历表,比较著名的星历表有美国国家航空航天局下属的喷气推进实验室发布的DE系列星历表,还有瑞士天文台在DE406基础上拓展的瑞士星历表等等.根据行星运行轨道直接计算行星位置通常不是很方便,更何况大多数民用天文计算用不上那么多精确的轨道参

AMD楚含进：异构计算就是计算你想要的东西

AMD中国开发合作与解决方案中心总监楚含进在论坛发言时表示,异构计算最后想实现问题,就是计算是你想要的东西,这里面第二个问题.异构计算给大家带来最重要,现在讲计算最大化,异构计算最终带来计算最优化的问题.这种优化能够表达出整个企业,整个产品核心竞争力就是在最优化,不是最大化,最优化表现成本优化,功耗优化,和系统性能优化. [IT商业新闻网讯] (记者于麟)异构计算技术从80年代中期诞生起,由于它能经济有效地获取高性能计算能力.可扩展性好.计算资源利用率高.发展潜力巨大,一直为并行分布计算领域中

DevOps系列二：事件驱动型计算会超过微服务吗？

我们在<DevOps系列一:认识事件驱动型计算>中介绍了事件驱动型计算对现代世界的影响.本文是系列二,对比事件驱动型计算与容器和微服务. 面向群众的消息队列在某种程度上说,旧的东西会变成新的.对于Iron.io和StackStorm公司的产品来说,老式的消息队列是软件运行的核心.Iron.io甚至还单独销售一款消息队列产品IronMQ,这个产品能触发姐妹软件IronWorker的事件. 但是,StackStorm公司的Powell说新的消息队列跟以前还是有一些不一样的,"新的消息队

AMD 780G/790GX显卡组建混合交火图文指南

关于主板的交火的硬件设置请参阅风信网的这篇文章: 实战映泰TPower I45与ATI显卡交火桥接图文指南原文地址:http://www.ithov.com/article/118077.shtml 1.按照目前AMD官方资料显示组建Hybrid Crossfire仅能搭配以下显卡:AMD HD 2400XT/2400PRO/3450/34702.请在BIOS中设置共享256M显存或更大(系统内存需要达到2GB或更大3.BIOS中将"surroundview" 项设置Enabled4.

算法系列（二十）计算中国农历（一）

世界各国的日历都是以天为最小单位,但是关于年和月的算法却各不相同,大致可以分为三类: 阳历--以天文年作为日历的主要周期,例如:中国公历(格里历) 阴历--以天文月作为日历的主要周期,例如:伊斯兰历阴阳历--以天文年和天文月作为日历的主要周期,例如:中国农历我国古人很早就开始关注天象,定昼夜交替为"日",月轮盈亏为"月",寒暑交替为"年" ,在总结日月变化规律的基础上制定了兼有阴历月和阳历年性质的历法,称为中国农历.本文将介绍中国农历的

猜你喜欢

html编辑器中，有很多无法得到系统的字体，这个脚本可以

脚本 <HTML><HEAD><TITLE></TITLE><SCRIPT type="text/javascript"> ...

MYSQL数据表损坏的原因分析和修复方法

1. 表损坏的原因分析以下原因是导致mysql 表毁坏的常见原因: 1. 服务器突然断电导致数据文件损坏. 2. 强制关机,没有先关闭mysql 服务. 3. mysqld 进程在写表时 ...

Shangducms1.1.0发布- 国内免费开源.Net CMS锐利体验

在Web 2.0大张旗鼓的今天,我们很难真正的简单的开发一种类似Web 1.0和Web 2.0的交互的网站,在国内也真正很难找到.Net的免费开源CMS,一般我们都会注意国外的开源项目,比如dnn,但 ...

Flash中人物的制作过程

过程這個人的畫法其實很簡單: 制作方法如下: 1.這張圖要注意的是阴影部分要最後畫 2.看清楚人物的眼睛是怎樣才開始動你的滑鼠 3. 嘴.....你喜愛怎樣畫就怎樣畫吧 4.注意:初初畫上時... ...

针对谷歌收录关于nofollow的一些遐想

目的:nofollow链接的权重传递,nofollow链接的收录删除.主要针对谷歌. 实验小站,谷歌文章篇篇收录. 问题1,一个页面2个链接nofollow掉一个,另外一个会收录吗? 在论坛讨论nof ...

数据库中的记录,如何用上一条下一条显示（一）

数据|数据库|显示若要让RecordSet移动到上一条下一条的位置,让我们先学会以下RecordSet对象的属性和方法: BOF属性:当前游标指到RecordSet的第一条记录. EOF属性:当前游 ...

C＃教程第三课:选择控制语句

教程|控制|语句本节课将介绍如何使用C#选择控制语句,第三课将达到如下几个目的:1.学会"if"语句的用法. 2.学会"switch"语句的用法. 3.学会在 ...

ExtAspNet应用技巧（八）

前言为了实践项目驱动的ExtAspNet开发过程,最近我启动了另外一个开源项目 - AppBox. AppBox项目使用ExtAspNet作为前台展现层,SubSonic作为ORM层,SqlServ ...

Delphi下汉字输入法的编程及使用

许多Windows应用程序的中西文录入界面中,中西文的录入需要反复切换汉字输入法,这样使用起来非常麻烦,下面来介绍一种比较简便的解决方法.本文的程序设计环境为Delphi Client/Server ...

Android使用ViewFlipper实现左右滑动效果面

效果看完了就来实现这个效果. 1.布局文件主界面使用下面的布局: <?xml version="1.0" encoding="utf-8"?> ...

filepath-Pathon 删除指定目录下的文件，我是coding online，无法调试，代码报错，具体如下：

问题描述 Pathon 删除指定目录下的文件, 我是coding online,无法调试,代码报错,具体如下: #Delete all files under the pointed path imp ...

为什么这样无法正确判断DataReader是否包含某一列？

问题描述为了判断DataReader是否包含某一列,我这样写:DataColumnCollectiondcc=dr.GetSchemaTable().Columns;if(dcc.Contains( ...

对着黑屏，背代码编程，他的终极目标是让自己失业

明天是9月5日,一年一度的国际慈善日.阿里妹想带大家认识一位盲人工程师,他的名字叫蔡勇斌,一直努力让自己失业. 蔡勇斌,是深圳信息无障碍协会的一名盲人程序员,负责对互联网产品进行适用于视觉障碍者的改造 ...

英国电信公司沃达丰遭到网络攻击

据报道,在全英有近2000万客户的电信公司沃达丰(Vodafone)遭到黑客攻击. 英国电信公司沃达丰(Vodafone)目前已经确认黑客成功窃取了其英国地区近2000名客户的个人资料. 根据该公司的 ...

缺货笼罩供应链：智能手机“涨”声一片

从年初红米.魅蓝旗下已发布的千元机涨价开始,电子行业的缺货现象渐渐从供应链浮现到了消费者眼前,处理器芯片.存储器芯片.屏幕.CMOS传感器等核心元器件的缺货笼罩在供应链上方,随之而来的则是智能手机的一 ...

未来邮件营销应用程序的4个爆发点

Eric Ries曾在<精益创业实战>中提出"最简可行产品"(MVP,minimum viable product)概念,这是一种对产品或功能进行快速而量化的市场测试的 ...

PHP面向对象：接口与抽象方法

接口(interface)是抽象方法和静态常量定义的集合. 接口是一种特殊的抽象类,这种抽象类中只包含抽象方法和静态常量. 接口中没有其它类型的内容. 我们先写接口的定义,下面的例子是接口的一个简单写 ...

Windows上 IE10 最快，Mac上Chrome 19最快

最近,Web应用性能监测工具 New Relic对Windows和Mac上各浏览器的速度做了测试.通过每月请求4000万亿个网页, New Relic得到的结果是:在Windows上IE10的响应速度 ...

医药工程设计行业：走在春风里　明天会更好

9352万元--这是国药集团联合工程有限公司2009年在医药工程设计方面的营业收入."目前,国内医药工程设计费在整个工程投资项目中所占的比例一般在2.5%左右,甚至有些大的项目不足2%.&q ...

盛大文学云中书城移动客户端用户近550万

5月23日消息,盛大文学今日宣布与微软.诺基亚达成深度战略合作关系,后二者将为盛大文学云中书城提供技术和设备支持,并同时推出云中书城Windows Phone应用.盛大文学副总裁柳强透露,截至目前云中 ...

大家来看看我的双缓冲对不对。。。【已回复】

问题描述我是想模拟那个windows的屏幕保护程序,用了我自己理解的双缓冲,但不知道做得对不对.屏幕依然闪得很厉害.如果不对的话,请各位帮助修改一下代码,小菜在此先谢谢了.importjava.ut ...

上海发布了“2011年政府网站测评情况”

东方网5月2日消息:据<劳动报>报道,政府门户网站,市民感觉如何?近日,上海发布了"2011年政府网站测评情况",从调查数据中显示,上海政务网站门户页面访问量每日可达到 ...

PHP数组的定义、初始化和数组元素的显示实现代码_php基础

从ASP初入门到PHP,感觉到PHP的强大之一就是内置函数的丰富,比如先前学习的PHP日期时间函数,读写文件的相关函数等都无不表明了PHP的更专业.更令用户的使用得心应手. 一开始我对PHP函数的丰富 ...

js中关于undefined和null的区别介绍_基础知识

当声明一个变量未赋值一个变量没有声明的时候都是undefined类型的数据js变量在使用之前也必须先进行声明使用了一个未定义的变量x就会报错.如何判断一个变量是否能用: 第一种方法:if(typeof ...

封装好的javascript前端分页插件pagination_javascript技巧

摘要: 最近在开发项目中又用到了前端分页,以前也做过,为了方便以后使用所以将他封装成第三方插件,不依赖任何库.网上已经有很多插件,问什么还要自己造轮子? 自己写的扩展性高不依赖任何库作为一 ...

云技术的采用需谨慎，盲目跟风必然付出代价

从某种程度上看起来,现在我们已经跨进了一个"搭起台子就有人捧场"的浮躁的时代.从艺术.体育一直到休闲娱乐项目,凡是宣传手段够足够花哨的东西,总是可以吸引不明真相的围观群众们热烈的 ...

男子假称知道赛马内幕QQ上骗女网友13万

自称可以知道赛马内幕,在QQ上骗女网友13万多.近日,武进检察院受理了这起诈骗案件,目前还在批捕审查的过程中. 现年18岁的张晓涵自从初中毕业后就一直游手好闲,今年五月底其朋友潘钧打电话给他说:&q ...

浪潮存储实现“微秒级”响应，为新农合IT服务提速

导读:辽宁省灯塔市新型农村合作医疗管理中心的办公室里,工作人员正在进行2014年第三季度市级定点医疗机构集中结算工作,鼠标轻轻一点,数据"微秒级"响应,再也不用花大量的时间等待 ...

消息称阿里巴巴软银欲携手私募基金完全收购雅虎

据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,消息人士周二透露,阿里巴巴集团和软银当前正与私募基金进行谈判,准 ...

Sqlserver中char,nchar,varchar与Nvarchar的区别分析_MsSql

1. char类型: 对英文(ASCII)字符占用1个字节,对一个汉字占用2个字节,CHAR存储定长数据很方便,CHAR字段上的索引效率极高,比如定义char(10),那么不论你存储的数据是否达到了 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.