AMD OpenCL大学课程(2)

1、OpenCL架构

OpenCL可以实现混合设备的并行计算，这些设备包括CPU，GPU，以及其它处理器，比如Cell处理器，DSP等。使用OpenCL编程，可以实现可移植的并行加速代码。[但由于各个OpenCL device不同的硬件性能，可能对于程序的优化还要考虑具体的硬件特性]。

通常OpenCL架构包括四个部分：

平台模型(Platform Model)
执行模型(Execution Model)
内存模型(Memory Model)
编程模型(Programming Model)

2、OpenCL平台模型

不同厂商的OpenCL实施定义了不同的OpenCL平台，通过OpenCL平台，主机能够和OpenCL设备之间进行交互操作。现在主要的OpenCL平台有AMD、Nvida，Intel等。OpenCL使用了一种Installable Client Driver模型，这样不同厂商的平台就能够在系统中共存。在我的计算机上就安装有AMD和Intel两个OpenCL Platform[现在的OpenCL driver模型不允许不同厂商的GPU同时运行]。

OpenCL平台通常包括一个主机(Host)和多个OpenCL设备（device），每个OpenCL设备包括一个或多个CU(compute units)，每个CU包括又一个或多个PE（process element）。每个PE都有自己的程序计数器(PC)。主机就是OpenCL运行库宿主设备，在AMD和Nvida的OpenCL平台中，主机一般都指x86 CPU。

AMD平台来说，所有的CPU是一个设备，CPU的每一个core就是一个CU，而每个GPU都是独立的设备。

3、OpenCL编程的一般步骤

下面我们通过一个实例来了解OpenCL编程的步骤，假设我们用的是AMD OpenCL平台（因为本人的GPU是HD5730），安装了AMD Stream SDK 2.6,并在VS2008中设置好了include，lib目录等。

首先我们建立一个控制台程序，最初的代码如下：

第一步，我们要选择一个OpenCL平台，所用的函数就是

通常，这个函数要调用两次，第一次得到系统中可使用的平台数目，然后为（Platform）平台对象分配空间，第二次调用就是查询所有的平台，选择自己需要的OpenCL平台。代码比较长，具体可以看下AMD Stream SDK 2.6中的TemplateC例子，里面描述如何构建一个健壮的最小OpenCL程序。为了简化代码，使程序看起来不那么繁琐，我直接调用该函数，选取系统中的第一个OpenCL平台，我的系统中安装AMD和Intel两家的平台，第一个平台是AMD的。另外，我也没有增加错误检测之类的代码，但是增加了一个status的变量，通常如果函数执行正确，返回的值是0。

第二步是得到OpenCL设备

这个函数通常也是调用两次，第一次查询设备数量，第二次检索得到我们想要的设备。为了简化代码，我们直接指定GPU设备。

下面我们来看下OpenCL中Context的概念：通常，Context是指管理OpenCL对象和资源的上下文环境。为了管理OpenCL程序，下面的一些对象都要和Context关联起来：

—设备（Devices）:执行Kernel程序对象。

—程序对象（Program objects）: kernel程序源代码

—Kernels:运行在OpenCL设备上的函数。

—内存对象（Memory objects）: device处理的数据对象。

—命令队列（Command queues）: 设备之间的交互机制。

注意：创建一个Context的时候，我们必须把一个或多个设备和它关联起来。对于其它的OpenCL资源，它们创建时候，也要和Context关联起来，一般创建这些资源的OpenCL函数的输入参数中，都会有Context。

这个函数中指定了和Context关联的一个或多个设备对象,properties参数指定了使用的平台，如果为NULL,厂商选择的缺省值被使用，这个函数也提供了一个回调机制给用户提供错误报告。

现在的代码如下：

接下来，我们要看下命令队列。在OpenCL中，命令队列就是主机的请求，在设备上执行的一种机制。Kernel执行前，我们一般要进行一些内存拷贝的工作，比如把主机内存中的数据传输到设备内存中。

另外要注意的几点就是：对于不同的设备，它们都有自己的独立的命令队列；命令队列中的命令(kernel函数）可能是同步的，也可能是异步的，它们的执行顺序可以是有序的，也可以是乱序的。

命令队列在device和context之间建立了一个连接。

命令队列properties指定以下内容:

是否乱序执行（在AMD GPU中，好像现在还不支持乱序执行）
是否启动Profiling。Profiling通过事件机制来得到kernel执行时间等有用的信息，但它本身也会有一些开销。

如下图所示，命令队列把设备和context联系起来，尽管它们之间不是物理连接。

添加命令队列后的代码如下：

时间： 2024-10-28 09:04:14

AMD OpenCL大学课程(2)的相关文章

AMD OpenCL大学课程(6)

GPU架构内容包括: 1.OpenCLspec和多核硬件的对应关系 AMD GPU架构 Nvdia GPU架构 Cell Broadband Engine 2.一些关于OpenCL的特殊主题 OpenCL编译系统 Installable client driver 首先我们可能有疑问,既然OpenCL具有平台无关性,我们为什么还要去研究不同厂商的特殊硬件设备呢? 了解程序中的循环和数据怎样映射到OpenCL Kernel中,便于我们提高代码质量,获得更高的性能. 了解AMD和Nvdia显卡

AMD OpenCL大学课程(5)

OpenCL内存模型 OpenCL的内存模型定义了各种各样内存类型,各种内存模型之间有层级关系.各种内存之间的数据传输必须是显式进行的,比如从host memory到device memory,从global memory到local memory等等. WorkGroup被映射到硬件的CU上执行(在AMD 5xxx系列显卡上,CU就是simd,一个simd中有16个pe),OpenCL并不提供各个workgroup之间的一致性,如果我们需要在各个workgroup之间共享数据或

AMD OpenCL大学课程(7)

6.Nvdia GPU Femi架构 GTX480-Compute 2.0 capability: 有15个core或者说SM(Streaming Multiprocessors ). 每个SM,一般有32 cuda处理器. 共480个cuda处理器. 带ECC的global memory 每个SM内的线程按32个单位调度执行,称作warp.每个SM内有2个warp发射单元. 一个cuda核由一个ALU和一个FPU组成,FPU是浮点处理单元. SIMT和SIMD SIMT是指单指令.多线程. 硬

AMD OpenCL大学课程(11)

性能优化 1.线程映射所谓线程映射是指某个线程访问哪一部分数据,其实就是线程id和访问数据之间的对应关系. 合适的线程映射可以充分利用硬件特性,从而提高程序的性能,反之,则会降低性能. 请参考Static Memory Access Pattern Analysis on a Massively Parallel GPU这篇paper,文中讲述线程如何在算法中充分利用线程映射.这是我在google中搜索到的下载地址:http://www.ece.neu.edu/~bjang/pat

AMD OpenCL大学课程(12) 性能优化案例NBody

本节主要介绍NBody算法的OpenCL性能优化. 1.NBody NBody系统主要用来通过粒子之间的物理作用力来模拟星系系统.每个粒子表示一个星星,多个粒子之间的相互作用,就呈现出星系的效果. 上图为一个粒子模拟星系的图片:Source: THE GALAXY-CLUSTER-SUPERCLUSTER CONNECTION,http://www.casca.ca/ecass/issues/1997-DS/West/west-bil.html 由于每个粒子之间都

AMD OpenCL大学课程(10)

GPU线程及调度本节主要讲述OpenCL中的Workgroup如何在硬件设备中被调度执行.同时也会讲一下同一个Workgroup中的workitem,如果它们执行的指令发生diverage(就是执行指令不一致)对性能的影响.学习OpenCL并行编程,不仅仅是对OpenCL Spec本身了解,更重要的是了解OpenCL硬件设备的特性,现阶段来说,主要是了解GPU的的架构特性,这样才能针对硬件特性优化算法.现在OpenCL的Spec是1.1,随着硬件的发展,相信OpenCL会支持更多的并

AMD OpenCL大学课程(13) OpenCL扩展

1.OpenCL扩展 OpenCL扩展是指device支持某种特性,但这中特性并不是OpenCL标准的一部分.通过扩展,厂商可以给device增加一些新的功能,而不用考虑兼容性问题.现在各个厂商在OpenCL的实现中或多或少的使用了自己的扩展. 扩展的类型分为三种: Khronos OpenCL工作组批准的扩展,这种要经过一致性测试,可能会被增加到新版本的OpenCL规范中.这种扩展都以cl_khr作为扩展名. 外部扩展, 以cl_ext为扩展名.这种扩展是由2个或2个以上的

AMD OpenCL大学课程(4)

Kernel对象: Kernel就是在程序代码中的一个函数,这个函数能在OpenCL设备上执行.一个Kernel对象就是kernel函数以及其相关的输入参数. Kernel对象通过程序对象以及指定的函数名字创建.注意:函数必须是程序源代码中存在的函数. 运行时编译: 在运行时,编译程序和创建kernel对象是有时间开销的,但这样比较灵活,能够适应不同的OpenCL硬件平台.程序动态编译一般只需一次,而Kernel对象在创建后,可以反复调用. 创建Kernel后,运行Ker

AMD OpenCL大学课程(3)

OpenCL内存对象: OpenCL内存对象就是一些OpenCL数据,这些数据一般在设备内存中,能够被拷入也能够被拷出.OpenCL内存对象包括buffer对象和image对象. buffer对象:连续的内存块----顺序存储,能够通过指针.行列式等直接访问. image对象:是2维或3维的内存对象,只能通过read_image() 或 write_image()来读取.image对象可以是可读或可写的,但不能同时既可读又可写. 该函数会在指定的context上创建一个

猜你喜欢

android-如何从电话的联系表中获取email？

问题描述如何从电话的联系表中获取email? 我想从手机的联系列表中获取不同的电子邮件地址,比如工作,家庭住址等.我用的下面的代码,但是发现返回的结果是0.怎么回事啊? Cursor email = ...

JSP中的pageEncoding和contentType属性

关于JSP页面中的pageEncoding和contentType两种属性的区别: pageEncoding是jsp文件本身的编码 contentType的charset是指服务器发送给客户端时的内容 ...

PS快速上色法

PS快速上色法极品美女:Photoshop快速上色法.原图:

如何在Windosws 2000中安装JSP并访问Oracle

js|oracle|访问系统环境: 1.操作系统:Windows 2000 2.数据库: Oracle 8i R2 (8.1.6) for NT 企业版 3.安装路径:C:ORACLE 本例使用软件 ...

Oracle8 数据类型

oracle|数据|数据类型 Oracle8 数据类型作者:佚名来源:InterNet 数据类型参数描述 char(n) n=1 to 2000字节定长字符串,n字节长,如果不指定长 ...

有效的设计沟通和探讨的方式:即兴创作

Jazz是门很奇妙的艺术,尤其是音乐家们即兴创作时互相激发.灵感四溢,一气呵成,酣畅之至.这种状态,恐怕也是各位设计师渴望的境界.如果你发现自己整天陷于琐碎的细节与无谓的争吵时,不妨尝试"即 ...

亲密接触ASP.Net(13) 实现个性化分页

个性化的分页实现我们前面讲的分页,只不过是通过修改DataGrid的属性来实现分页,这样有这样的好处,最大的就是简单,呵呵,根本不用操心,分页是如何产生的. 但是它同样有缺点,不能按照我们想像的产生 ...

菜鸟也学VFP

基础部分 vfp基础教程补充的控件方面的例子看实例学VFP:用编辑框控件做个"摸奖机" 看实例学VFP:用列表框控件做个"开始菜单" 看实例学VFP:选项按 ...

求按从小到大的顺序的第5个丑数

题目: 我们把只包含因子2, 3 和 5的数称作丑数. 求按从小到大的顺序的第5个丑数. 可以设置一个数组包含所需要的丑数, 依次比较乘以2, 乘以3, 乘以5的最小的数, 最后返回结果. 如第5个丑 ...

关注node.js的原因

我们的系统架构通常是由客户端和服务器端构成的.而C/S和B/S的区别无非就是前者是自己制造了一个客户端软件,而后者是利用了浏览器软件.使用浏览器软件虽然在功能上会受到限制,但是避免了跨平台的麻烦(暂不 ...

Word排版之表格图片自动编号

本文介绍使用Word自动题注功能. 上次博文中说到了不连续页码的设置,今天我们来说说如何在插入表格和图片的时候能够自动添加编号.其实,说起来这个功能Word一直有,只是我们很少人会用.在台湾人侯捷的& ...

Excel2010如何快速修改图表数据？

1.选中需要创建图表的数据,接着点击工具栏的"插入"→"图表",我们可以根据自己的需求插入不同类型的图表,这里以柱形图为例. 2.插入柱形图后我们就可以在表 ...

Win7旗舰版升级Win10系统提示错误C1900107的解决方法

通过分析,以上问题是由于原系统中的第三方软件干扰或驱动程序不兼容所导致的. 解决方法: 请在升级前先把已安装的第三方安全软件全部卸掉.另外,检查一下当前驱动的情况,该更新的都更新掉.在安装系统的时 ...

office 2010提示安装程序包的语言不受系统支持怎么办？

office 2010提示安装程序包的语言不受系统支持怎么办?最近,一位电脑用户在卸载office 2010这款办公软件的时候,卸载被中断,系统提示:安装程序包的语言不受系统支持,这可怎么办呢?在今天 ...

wampserver的安装问题还有apache的配置

问题描述 wampserver的安装问题还有apache的配置 MSVCR100.dll我真的安装了运行库我也安装了就是不行,就是显示丢失,求大神啊,有没有什么可以代替wampserver的软件啊解 ...

[图]iOS 11的20项细节调整：更加人性化

iOS 11带来了诸多重大调整,在此前的报道中主要集中在Siri.控制中心.Photos等核心应用上,而事实上本次版本升级还带来了很多细节方面的调整,那么接下来就让我们一起来看看这些变化吧. 1.锁屏 ...

【AI+娱乐】一图看懂爱奇艺大脑增强版，智能视频峰会有AI更有爱

深度学习和强化学习在视频领域的应用会是下一个AI热点,情感计算会让智能视频的世界更有温度,爱奇艺世界未来有AI更有爱.--新智元创始人杨静 6月9日,爱奇艺世界·大会第二天,聚焦探讨AI与娱乐深度融合 ...

Creator 创建工程提示copy deployment folders error构建错误

问题描述 Creator 创建工程提示copy deployment folders error构建错误系统是XP,之前安装vs2010+Qt5.1 for vs2010+qt5.1 mingw,使 ...

linux内核移植X86平台的例子

bootloader支持启动多个Linux 内核安装(X86平台) 1. cparch/x86/boot/bzImage /boot/vmlinuz-$version 2. cp $initrd /b ...

jquery 音乐播放器效果插件 jPlayer

<!doctype html public '-//w3c//dtd xhtml 1.0 transitional//en' 'http://www.w3.org/tr/xhtml1/dtd/x ...

阿里云服务器Centos7如何配置与启动tomcat

注意,请先到阿里云官网领取幸运券,除了价格上有很多优惠外,还可以参与抽奖.详见:https://promotion.aliyun.com/ntms/act/ambassador/sharetouser ...

如何插件实现微信好友聊天自动转发朋友圈

问题描述如何插件实现微信好友聊天自动转发朋友圈求一个微信插件,能实现好友聊天内容文字自动转发朋友圈,非常感谢. 解决方案 http://jingyan.baidu.com/article/414e ...

System.Runtime.InteropServices.COMException (0x80040154)错误

用windwos服务.owc.excle组件生成Excel文档,然后通过邮件自动发生给公司管理层,本来在本地测试.配置都正常,但是部署到Window 2003服务器上,服务启动后,日志文件记录程序出错 ...

黑客是怎样买彩票的？

如果你是一名黑客,一个可以为了金钱铤而走险的"荒野猎人".在黑暗的网络森林里,你会猎杀哪一种猎物呢? 相信不用过多思考,很多猎人都会把准星瞄准一头神兽--彩票.这世界上没有 ...

28商机网：对于创业者启动特许经营的六条建议

28商机网作为一家专业的投资创业项目展示型网站,自2004年成立以来,28商机网已经引领全国许多普通人走上了自我创富的道路.投资金额由几千元到几万元不等,行业涉及服装.餐饮.娱乐.网络--等等多个行业 ...

js中Math之random,round,ceil,floor的用法总结_javascript技巧

<SPAN style="FONT-SIZE: 18px">1.Math.random(); 结果为0-1间的一个随机数(包括0,不包括1) </SPAN> ...

我国固定互联网宽带接入用户新增1600万户

摘要: 8月11日上午消息(李明)在今天上午举行的"2011年光通信论坛暨第四届FTTx发展战略咨询会"上,工信部通信发展司副司长祝军表示,今年上半年,我国固定互联网宽带接入用户新 ...

mac mysql-Mac上安装MySQL之后，连接测试报错

问题描述 Mac上安装MySQL之后,连接测试报错不能连接到127.0.0.1(61)求教怎么解决.昨天弄了一宿都没弄好,不知道该怎么配置.求教大神. 解决方案 http://blog.sina.c ...

新站快速收录有效做法

实大可不必,我做的网站从来都没有去这些所谓的搜索引擎提交点提交,我认为该收录它就会收录,不能收录他始终收录不了.我是做百度的,这里就以百度为例,我有个新站www.111cn.net,上线不到2个小时百 ...

视频点播网站架构

问题描述我最近要搭建一个基于http协议并支持随即定位播放的视频网站,想了解下像优酷.土豆.奇艺这类网站的架构,请各位大神赐教.比如(nginx+?),要实现随即定位播放,服务器端要能够根据客户端拖 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.023 s.