AMD OpenCL大学课程(5)

OpenCL内存模型

OpenCL的内存模型定义了各种各样内存类型，各种内存模型之间有层级关系。各种内存之间的数据传输必须是显式进行的，比如从host memory到device memory，从global memory到local memory等等。

WorkGroup被映射到硬件的CU上执行（在AMD 5xxx系列显卡上，CU就是simd，一个simd中有16个pe），OpenCL并不提供各个workgroup之间的一致性，如果我们需要在各个workgroup之间共享数据或者通信之类的，要自己通过软件实现。

Kernel函数的写法

每个线程（workitem）都有一个kenerl函数的实例。下面我们看下kernel的写法：

每个Kernel函数都必须以__kernel开始，而且必须返回void。每个输入参数都必须声明使用的内存类型。通过一些API，比如get_global_id之类的得到线程id。

内存对象地址空间标识符有以下几种：

__global – memory allocated from global address space

__constant – a special type of read-only memory

__local – memory shared by a work-group

__private – private per work-item memory

__read_only/__write_only – used for images

Kernel函数参数如果是内存对象，那么一定是__global,__local或者constant。

运行Kernel

首先要设置线程索引空间的维数以及workgroup大小等。

我们通过函数clEnqueueNDRangeKerne把Kernel放在一个队列里，但不保证它马上执行，OpenCL driver会管理队列，调度Kernel的执行。注意：每个线程执行的代码都是相同的，但是它们执行数据却是不同的。

该函数把要执行的Kernel函数放在指定的命令队列中，globald大小（线程索引空间）必须指定，local大小（work group）可以指定，也可以为空。如果为空，则系统会自动根据硬件选择合适的大小。event_wait_list用来选定一些events，只有这些events执行完后，该kernel才可能被执行，也就是通过事件机制来实现不同kernel函数之间的同步。

当Kernel函数执行完毕后，我们要把数据从device memory中拷贝到host memory中去。

释放资源：

大多数的OpenCL资源都是指针，不使用的时候需要释放掉。当然，程序关闭的时候这些对象也会被自动释放掉。

释放资源的函数是：clRelase{Resource} ，比如: clReleaseProgram(), clReleaseMemObject()等。

错误捕捉：

如果OpenCL函数执行失败，会返回一个错误码，一般是个负值，返回0则表示执行成功。我们可以根据该错误码知道什么地方出错了，需要修改。错误码在cl.h中定义，下面是几个错误码的例子.

CL_DEVICE_NOT_FOUND -1

CL_DEVICE_NOT_AVAILABLE -2

CL_COMPILER_NOT_AVAILABLE -3

CL_MEM_OBJECT_ALLOCATION_FAILURE -4

…

下面是一个OpenCL机制的示意图

程序模型

数据并行：work item和内存对象元素之间是一一映射关系；workgroup可以显示指定，也可以隐式指定。

任务并行：kernel的执行独立于线程索引空间；用其他方法表示并行，比如把不同的任务放入队列，用设备指定的特殊的向量类型等等。

同步：workgroup内work item之间的同步；命令队列中不同命令之间的同步。

完整代码如下：

也可以在http://code.google.com/p/imagefilter-opencl/downloads/detail?name=amdunicourseCode1.zip&can=2&q=#makechanges上下载完整版本。

时间： 2024-08-03 05:43:19

AMD OpenCL大学课程(5)的相关文章

AMD OpenCL大学课程(2)

1.OpenCL架构 OpenCL可以实现混合设备的并行计算,这些设备包括CPU,GPU,以及其它处理器,比如Cell处理器,DSP等.使用OpenCL编程,可以实现可移植的并行加速代码.[但由于各个OpenCL device不同的硬件性能,可能对于程序的优化还要考虑具体的硬件特性]. 通常OpenCL架构包括四个部分: 平台模型(Platform Model) 执行模型(Execution Model) 内存模型(Memory Model) 编程模型(Programming

AMD OpenCL大学课程(6)

GPU架构内容包括: 1.OpenCLspec和多核硬件的对应关系 AMD GPU架构 Nvdia GPU架构 Cell Broadband Engine 2.一些关于OpenCL的特殊主题 OpenCL编译系统 Installable client driver 首先我们可能有疑问,既然OpenCL具有平台无关性,我们为什么还要去研究不同厂商的特殊硬件设备呢? 了解程序中的循环和数据怎样映射到OpenCL Kernel中,便于我们提高代码质量,获得更高的性能. 了解AMD和Nvdia显卡

AMD OpenCL大学课程(7)

6.Nvdia GPU Femi架构 GTX480-Compute 2.0 capability: 有15个core或者说SM(Streaming Multiprocessors ). 每个SM,一般有32 cuda处理器. 共480个cuda处理器. 带ECC的global memory 每个SM内的线程按32个单位调度执行,称作warp.每个SM内有2个warp发射单元. 一个cuda核由一个ALU和一个FPU组成,FPU是浮点处理单元. SIMT和SIMD SIMT是指单指令.多线程. 硬

AMD OpenCL大学课程(11)

性能优化 1.线程映射所谓线程映射是指某个线程访问哪一部分数据,其实就是线程id和访问数据之间的对应关系. 合适的线程映射可以充分利用硬件特性,从而提高程序的性能,反之,则会降低性能. 请参考Static Memory Access Pattern Analysis on a Massively Parallel GPU这篇paper,文中讲述线程如何在算法中充分利用线程映射.这是我在google中搜索到的下载地址:http://www.ece.neu.edu/~bjang/pat

AMD OpenCL大学课程(12) 性能优化案例NBody

本节主要介绍NBody算法的OpenCL性能优化. 1.NBody NBody系统主要用来通过粒子之间的物理作用力来模拟星系系统.每个粒子表示一个星星,多个粒子之间的相互作用,就呈现出星系的效果. 上图为一个粒子模拟星系的图片:Source: THE GALAXY-CLUSTER-SUPERCLUSTER CONNECTION,http://www.casca.ca/ecass/issues/1997-DS/West/west-bil.html 由于每个粒子之间都

AMD OpenCL大学课程(10)

GPU线程及调度本节主要讲述OpenCL中的Workgroup如何在硬件设备中被调度执行.同时也会讲一下同一个Workgroup中的workitem,如果它们执行的指令发生diverage(就是执行指令不一致)对性能的影响.学习OpenCL并行编程,不仅仅是对OpenCL Spec本身了解,更重要的是了解OpenCL硬件设备的特性,现阶段来说,主要是了解GPU的的架构特性,这样才能针对硬件特性优化算法.现在OpenCL的Spec是1.1,随着硬件的发展,相信OpenCL会支持更多的并

AMD OpenCL大学课程(13) OpenCL扩展

1.OpenCL扩展 OpenCL扩展是指device支持某种特性,但这中特性并不是OpenCL标准的一部分.通过扩展,厂商可以给device增加一些新的功能,而不用考虑兼容性问题.现在各个厂商在OpenCL的实现中或多或少的使用了自己的扩展. 扩展的类型分为三种: Khronos OpenCL工作组批准的扩展,这种要经过一致性测试,可能会被增加到新版本的OpenCL规范中.这种扩展都以cl_khr作为扩展名. 外部扩展, 以cl_ext为扩展名.这种扩展是由2个或2个以上的

AMD OpenCL大学课程(4)

Kernel对象: Kernel就是在程序代码中的一个函数,这个函数能在OpenCL设备上执行.一个Kernel对象就是kernel函数以及其相关的输入参数. Kernel对象通过程序对象以及指定的函数名字创建.注意:函数必须是程序源代码中存在的函数. 运行时编译: 在运行时,编译程序和创建kernel对象是有时间开销的,但这样比较灵活,能够适应不同的OpenCL硬件平台.程序动态编译一般只需一次,而Kernel对象在创建后,可以反复调用. 创建Kernel后,运行Ker

AMD OpenCL大学课程(3)

OpenCL内存对象: OpenCL内存对象就是一些OpenCL数据,这些数据一般在设备内存中,能够被拷入也能够被拷出.OpenCL内存对象包括buffer对象和image对象. buffer对象:连续的内存块----顺序存储,能够通过指针.行列式等直接访问. image对象:是2维或3维的内存对象,只能通过read_image() 或 write_image()来读取.image对象可以是可读或可写的,但不能同时既可读又可写. 该函数会在指定的context上创建一个

猜你喜欢

Android 内存泄漏总结

Android 内存泄漏总结内存管理的目的就是让我们在开发中怎么有效的避免我们的应用出现内存泄漏的问题.内存泄漏大家都不陌生了,简单粗俗的讲,就是该被释放的对象没有释放,一直被某个或某些实例所持有却 ...

“用户为本”，分类信息唯一的基石与方向

分类信息美国Craigslist创造了一个人人憧憬的故事:一个狂爱NBA的打工仔,利用打接头篮球的空余时间,把一个业余爱好,逐渐摆弄成一个互联网界惊天动地的巨无霸,WEB2.0的NO.1.若他高兴, ...

使用browser capabilities组件来测试浏览器能力

浏览器 <% dim bc set bc=server.createobject("mswc.browsertype")%><html><body&g ...

如何使用Contemplate ThreadSafe发现并判断Java并发问题

事实证明,要发挥多核硬件所带来的收益是很困难和有风险的.当使用并发正确和安全地编写Java软件时,我们需要很仔细地进行思考.因为错误使用并发会导致偶尔才出现的缺陷,这些缺陷甚至能够躲过最严格的测试环境 ...

配置Dell交换机需注意的问题

此为本人原创,主要为自己在使用dell交换机的过程中出现及解决的问题. 这些问题几乎都是dell工程师没有解决的,因此导致我对dell支持服务一直存在意见,希望dell工程师能够借鉴一下客户的经验. ...

XP系统怎么设置WiFi热点

XP系统怎么设置WiFi热点右键单击桌面上的"网上邻居"然后选择"属性". 此时弹出"网络连接"再次右键点击"无线网络连接& ...

一个完整的UI设计流程是怎样的？

收到一封 Mail,其中提到几个关于设计流程和 Prototype 的问题.UI设计流程:Wireframe->低保真Prototyple->Mockup->高保真Prototy ...

Word怎么用快捷键快速修改文字格式

Word怎么用快捷键快速修改文字格式 1.电脑上新建word文件,例如命名为"word技巧" 2.双击"word技巧",打开word文件 3.输入一段内容作 ...

win7遇到无法安装的补丁要怎么样解决

微软基本上会定期推出补丁,但是不是所有补丁都能顺利安装的,有的时候难免出现补丁不能安装的情况,而出现这些情况我们要怎么解决呢? 1 遇到无法下载完成的补丁这个很少发生,很多时候是你网络突然中断了. ...

PromiereMOV视频丢失损坏如何恢复

Premiere Pro是视频编辑爱好者和专业人士准备的必不可少的编辑工具.它可以提升您的创作能力和创作自由度,它是易学.高效.精确的视频剪辑软件.Premiere提供了采集.剪辑.调色.美化音频 ...

笔记本显卡温度过高自动关机怎么办

首先了解下,笔记本显卡温度多少正常?一般来说,笔记本显卡的耐热温度是120度,警告温度是90度,笔记本显卡温度通常不超过80度,超过这个范围,可能就会导致电脑死机或者自动关机. 笔记本显卡温度过高 ...

【工作日志】2013-02-01

================== 代理设置 ==================== [wget] 在 /etc/wgetrc 中添加 ? 1 2 3 4 5 6 7 8 9 10 ## Wget ...

javax.mail发送邮件带附件

废话不多说直接上代码 package test; import java.io.File; import java.util.Properties; import javax.mail.Authent ...

前后端分离架构下CSRF防御机制

背景 1.什么是CSRF攻击? 这里不再介绍CSRF,已经了解CSRF原理的同学可以直接跳到:"3.前后端分离下有何不同?". 不太了解的同学可以看这两篇对CSRF介绍比较详细的参 ...

谈动态多行多列，循环行和列，输出M行N列的ASP代码_应用技巧

现在感觉真麻烦,下面这样够简单够清楚了吧? 复制代码代码如下: <% Dim i, j, iCols i = 0 '//定义i进行循环 iCols = 3 '//一行有几列(正整数) ...

intellij idea-IntelliJ IDEA 编辑器中如何将代码的背景阴影去掉

问题描述 IntelliJ IDEA 编辑器中如何将代码的背景阴影去掉 IntelliJ IDEA 编辑器中如何将代码的背景阴影去掉解决方案 http://blog.sina.com.cn/s/bl ...

世界弱能人士日的由来和历史

每年12月5日的世界弱能人士日是1990年由联合国订定.世界弱能人士日的主要目的是让更多居民认识弱能人士,从了解.关注开始,进而接纳他们,并促进居民大众对弱能人士采取积极的开放态度. 对弱能的孩子来说 ...

为什么java开发的web service,在.net里生成的代理类里没有指定的类型?

问题描述 java开发的webservice里的submit原型:publicvoidsubmit(MTRequestrequest,MTResponseHolderholder){....}而在客户 ...

滴滴快的推苍穹平台用大数据下活“智能出行”棋

ZDNet至顶网软件频道消息: 下午1点钟,北京金融街的打车需求中,去往机场方向的几率更高:如果你是沈阳的出租车司机,想要生意好就要比其他城市的司机更早起--这些交通运行的"秘密" ...

SpringMVC里面的jsp中的checkbox传值问题

问题描述 JAVA中代码:@Column(name= "is_bold")private Integer isBold;<input name="isBold&qu ...

移动首个大众物联网应用RFID-SIM诞生

10月14日消息,昨天,上海世博局和中国移动共同发布了可承载世博手机票的RFID-SIM卡,并宣布从2009年11月1日起,双方共同推出世博手机门票.届时,用户只要使用内置了RFID的SIM卡,就可以 ...

gui-Java GUI 开发框架问题

问题描述 Java GUI 开发框架问题为什么要分好几层,直接在jframe上直接添加组健不就行了么?大神请速回啊解决方案使用 IBATIS 框架开发JAVA GUIJava GUI 开发ja ...

Docker 容器互联

Docker容器互联实现容器间通信首先,大家如果看到有什么不懂的地方,欢迎吐槽!!! 我会在当天或者第二天及时回复,并且改进~~ 容器的连接(linking)系统是除了端口映射以外的另一种可以与容器 ...

《TERA》开启预选服务为公测做准备

2月30日消息,韩国次世代MMORPG新作<TERA>今天下午3时起至1月9日间开启预选服务. 预选服务是<TERA>韩国公测前,玩家预先选择服务器.种族.职业.外貌并设定角色 ...

南海医院系统故障病人无法睇病引质疑

广佛都市网讯佛山日报实习生吴丹蕾记者李锋报道: 昨日上午,南海医院因电脑挂号系统故障,导致不少市民未能及时就诊.院方一个小时后修复,并延迟上午工作时间.昨日上午9时30分,一位前往南海医院就医的市 ...

Oracle利用scn增量备份实现数据库增量恢复

使用rman基于scn实现数据库增量恢复是在dg中修复gap的时候常见的方法,其实该方法也可以使用常规的增量恢复,通过人工控制,实现数据库的某种特殊的业务需求(特殊的数据迁移).处理思路主要是获得备库 ...

oracle中无法修改xs$null用户密码

修为安全审计的原因,发现数据库中有一个XS$NULL用户,尝试为其修改密码,发现报错.即使是sys用户也无法修改XS$NULL用户的密码: SQL> --11.2.0.4 SQL> alt ...

用jquery实现树

问题描述我用jquery编写了一个tree,在页面上显示两个树时,总会有一个不正确.比如:页面上有两个div<divid="tree"></div>和&l ...

企业Web应用中的敏捷测试和瀑布测试

简介同是企业WEB应用程序项目,一个用敏捷,一个用瀑布流程,它们的测试策略会有何不同?在二者中,测试的关注点都在于告诉业务客户这个应用程序做了哪些事情,同样也要消除应用程序作为产品交付以后的失败风险 ...

数据安全：谁将赢得网络战争？

数据安全一直是金融服务公司优先考虑的重点.但是近期"匿名者"等国际黑客组织发动的一系列网络攻击,加之金融危机之后公众产生的不信任感迫使金融服务公司提升他们的网络安全,以防止数据泄露 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.