《OpenACC并行程序设计：性能优化实践指南》一 2.5　在多核系统中并行运行

2.5　在多核系统中并行运行

尽管本章使用了NVIDIA GPU，但OpenACC不是一个GPU编程模型，而是一种普遍适用的并行编程模型。尽管在2.4节中使用的循环优化技术仅适用于GPU，关于并行度和数据移动的技术手段适用于任意并行架构设备。本章使用的PGI编译器支持多种目标加速器，包括NVIDIA和AMD公司的GPU，以及多核x86 CPU。如果在多核CPU上开发和运行代码，将会发生什么呢？为多核目标平台重新编译代码，而不是将目标设定为tesla（见图2-29和图2-30）。

如果运行可执行程序，它将在测试机的多核CPU上并行化各循环，而不是在GPU上运行了。通过设定ACC_NUM_CORES环境变量可以用来调整参与并行计算的CPU的核心数目。图2-31展示了调整核心数目后的加速比情况，该机器具有的最大核心数目是12。性能在使用超过4个CPU核之后保持稳定，这是因为测试程序的性能主要受制于CPU带宽。

时间： 2024-09-16 21:52:53

《OpenACC并行程序设计：性能优化实践指南》一 2.5　在多核系统中并行运行的相关文章

《OpenACC并行程序设计：性能优化实践指南》一 3.6　第一个并行PIConGPU实现

3.6 第一个并行PIConGPU实现下一步,用Vampir打开追踪文件trace.otf2,如图3-8所示.追踪缩略图(右上角)显示只选择了整个程序执行的0.2s,并且重复模式显示了模拟的大概2.5个迭代步骤.中间用颜色编码的活动是主时间轴,它显示了MPI.主机进程(进程1-4)和相应的CUDA上下文(线程1/1-4).右下角的图例显示了颜色的含义.进程之间的黑线代表MPI消息.进程和线程之间的黑线代表CUDA内存拷贝.可以看出,MPI活动占据了大部分的程序执行时间,而CUDA活动所占时间很

《OpenACC并行程序设计：性能优化实践指南》一导读

前言欢迎阅读本书,这是一本由浅入深的书籍,从初学者到高级开发人员,都可以通过本书了解OpenACC的相关知识.本书由世界各地的24位作者共同编著而成,他们在高度并行编程的教学和实践方面分享了自己的专业知识.书中的例子既有时效性又不会过时.每个章节都是自包含的,可用于自学,也可以作为课堂教学的一部分. 这是一本关于并行编程的书,不仅仅介绍OpenACC语法或从文档中收集的信息,更介绍了如何编写实际的.高性能的以及可移植的程序,这些程序可以运行在从CPU到GPU的大量设备上.具体而言,书中演示了使

《OpenACC并行程序设计：性能优化实践指南》一 1.1　简单的数据并行循环

1.1 简单的数据并行循环在顺序处理器程序设计中,需要编写计算某个最终结果所需要的任务和数据操作的程序.通过创建OpenACC,编程人员可以插入编译指令给编译器提供信息,而这些编译指令是关于并行机会和数据在加速器与主机间来回传输的信息.结合编译器,程序员使用注记来创建.调试和优化并行代码,使得程序达到高性能. OpenACC帮助程序员编写高效的数据和任务并行软件. 数据并行关注跨多个并发执行线程的分布式数据操作.在计算机科学中,线程是串行执行一段代码的线程的缩写.通过使用多个线程,应用程序可以

《OpenACC并行程序设计：性能优化实践指南》一 1.3　Amdahl定律及其扩展

1.3 Amdahl定律及其扩展绘制任务运行时间,可以看到并行增加应用程序的扩展行为.并行计算的理论性能:运行在有N个处理单元的并行计算机上,理论上可以获得N倍加速.换一句话说,一个程序运行在10核处理器上可能获得10倍加速(对于固定大小的问题),在支持1000个并发执行线程的GPU上获得1000倍加速.开发人员依据Amdahl定律来讨论并行与串行间的加速比. 用计算机架构师Gene Amdahl来命名Amdahl定律.它不是实际上的定律,但是修改串行程序使其并行执行时,它相当接近模型理论加速

《OpenACC并行程序设计：性能优化实践指南》一 1.4　并行执行和竞争条件

1.4 并行执行和竞争条件 OpenACC并行化for循环(Fortran中是do循环),因此循环内的代码使用并发硬件执行线程并行执行. 循环内的变量i似乎是顺序递增的,但实际上在这个for循环中使用多个i变量的线程可能同时并行执行,这可能有点令人困惑.OpenACC不保证线程执行的顺序,注意这点非常重要.实际上,甚至不可能假设单调性.例如,很有可能第nCount―1次迭代实际上先于第0次迭代执行完. OpenACC不保证线程执行的顺序,注意这点非常重要. 总之,OpenACC编程人员不能也不应

《OpenACC并行程序设计：性能优化实践指南》一 2.6　小结

2.6 小结 OpenACC是一种描述型并行编程模型.在本章中,通过一个测试函数的应用,使用了OpenACC的多种特性来描述并行度和数据操控,并针对特定平台对代码进行了优化.尽管使用的是PGI编译器和PGProf性能调试器,但类似的优化流程也是适用于任何支持OpenACC工具包的应用的. 1.获得应用程序的性能分析结果,辨识和挖掘代码中的可并行之处. 2.逐步向编译器描述代码中可挖掘出的并行性.如果主机端和设备端使用各自的存储器,这一步骤后获得的代码很可能会减速. 3.描述应用程序的数据移动.编

《OpenACC并行程序设计：性能优化实践指南》一 2.4　优化循环

2.4 优化循环此刻,测试代码可以比原始代码加速2倍了.但这是能够获得的性能最好的代码吗?目前添加的导语可以在任何加速器上实现代码的提速,但为了在特定的测试机器上取得最佳性能,需要使用特定目标设备优化技术.万幸的是,OpenACC提供了一种指定devcie_type的优化手段,因此特定的子句仅在编译为指定设备的代码时才会生效.首先从分析目前代码的编译器反馈信息着手,针对matvec子程序,因为它是最为耗时的代码段(见图2-22). 编译器提供了它如何并行化两个矩阵循环(第30和24行)的信息.

《OpenACC并行程序设计：性能优化实践指南》一 1.6　控制并行资源

1.6 控制并行资源 accParaCounter.cpp中的嵌套循环结构可以用来控制循环并行性,因此可以控制并行资源消耗. 大多数并行编程人员遵循在系统中利用最大并行性来实现最高性能的方法. 大量线程背后的思路是给予并行调度器尽可能多的线程以供调度,从而最大化地利用所有计算资源.GPU编程人员喜欢用占有率(occupancy)作为线程并行度的度量.高占有率意味着调度器有更多的激活线程以供调用,因此有机会实现更高性能. 高占有率并不一定转为最快的应用性能.指令级并行(Instruction le

《OpenACC并行程序设计：性能优化实践指南》一 2.1　测试代码：共轭梯度法

2.1 测试代码:共轭梯度法本章中使用共轭梯度法作为标准测试代码.共轭梯度法是一种迭代算法,常用来逼近一组线性方程组成的大型稀疏系统.由于这种系统通常规模庞大,因此难于使用直接法进行求解.阅读本章不需要理解共轭梯度法的数学含义.提供了共轭梯度法的C和Fortran编码实现供读者参考.简洁起见,本章仅展示了C代码.不过不必担心,C代码的应用方式可以扩展到Fortran代码,两者区别不大.本章使用的代码遵循Apache许可,版本2.0.详情请阅读许可文件. 示例代码包含两种数据结构.第一个是向量结

猜你喜欢

使用javascript+xml实现分页

javascript|xml|分页基于web的技术中,分页是一个老的不能再老的,但大家津津乐道的问题,随着xml技术的日渐应用,把xml应用到分页当中,也是一种可能,当然网上的教程很多,当我都是看得 ...

巧用单页面来优化长尾关键词你真的会做么？

一个网站优质的高权重页面的不断积累,无疑对一个网站整体的权重是有非常大帮助,不仅仅是从流量上能有所提升,对于网站主页关键词,以及栏目页面的关键词权重都是有很好的提升效应.那么既然高质量的页面好处这么多 ...

3D编程：Visual Studio Graphics Debugger

Visual Studio Graphics Debugger Visual Studio Graphics Debugger(VS图形开发调试工具)支持在VS2013IDE中动态调试shaders. ...

ADSL与校园网双网合一实战

由于宿舍里机器比较多,原来都主要通过校园网上Internet,但是往往人一多就感觉网速比较慢,而且一台机器一个账号的限制又让人感觉很不方便.恰好我们所处的宿舍安装了外线电话,于是接上 ADSL 也成 ...

理解Delphi的类(九)

//例1: 这是正确的 TClassA = class Field1: string; Field2: Integer; end; TClassB = class Field1: string; Fi ...

算法：poj 2392 Space Elevator(dp 排序+多重背包)

题目大意: 有n种砖头,每种砖头的高为h,数量为c, 且它放的最高位置不能超过a. 问这些砖最高能够叠多高? 思路: 先把所有种类砖头按照a从大到小排序,然后直接套多重背包即可 . 代码: #inc ...

使用RSA密钥登录centos系统

为了系统centos的安全利用ssh RSA认证模式登录系统,windows系统利用secureCRT生成公钥和私钥,把公钥上传到服务器用户目录/ROOT/.ssh目录下. [root@localho ...

PS人像照片中眼影和唇彩的修饰技法

图/文张东新有时,在较为强调妆效的拍摄中,拍出的照片在色彩和质感上与我们要求的效果有较大差距,这就需要要对眼影.唇彩等部位的色彩进行后期调整,增强其色彩的张力.在调整时应该注意的是,要理解成品照 ...

Win 2003中实现网络共享还原

大家一定记得Windows XP的系统还原功能吧,但它只能还原本机的文件,对共享文件却无能为力了.随着Windows Server 2003操作系统的推出,这个问题迎刃而解.这个小东东就是Wind ...

力高答题怎么参赛答题

教育部青少年普法网举办的首届全国青少年法治知识大赛选用力高答题工具进行网上答题竞赛: 力高答题怎么答题?力高答题软件使用要求是什么?请参考力高答题客户端考试使用技巧: 每次发布的考试均有三次答题机 ...

IOS代码笔记之下拉选项cell_IOS

本文介绍了IOS下拉选项cell的使用方法,供大家参考,具体内容如下一.效果图二.工程图三.代码RootViewController.h #import <UIKit/UIKit. ...

NoSQL数据库概览及其与SQL语法的比较

[文章摘要] HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,同时也是知名的NoSQL数据库之一.NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据 ...

java Long.toBinaryString()方法

问题描述 java Long.toBinaryString()方法用十六制和八进制记数法来操作long值,用Long.toBinaryString()来显示结果. 解决方案 public class ...

让DOS下输入命令时也可以象LiUnix一样用Tab键进行命令自动填充

http://yulimin.javaeye.com/blog/45818 让DOS下输入命令时也可以象LiUnix一样用Tab键进行命令自动填充方法: 修改注册表操作: 运行regedit 展开 H ...

【SICP练习】98 练习2.73

练习2.73 a小题,这是由于Scheme对数字.变量的直接规定,前者会被当作数值类型,后者则会被当作符号类型.因此没必要将这两个谓词添加到数据导向分派中了.如果给数值类型或者符号类型加上一个标志,在 ...

configure: error: *** libmcrypt was not found 错误解决

configure: error: *** libmcrypt was not found 错误解决问题描述 CenterOS 6.3 64位中安装php-5.4.3时,在配置mcrypt-2.6. ...

本期国债利率不占优

凭证式(二期)国债向个人发售,计划最大发行总额300亿元,其中3年期210亿元,票面年利率4.76%:5年期90亿元,票面年利率5.32%.尽管利率收益较定存只是略高一些,但是国债发售还是受到很多&q ...

linux中git服务器搭配教程

例子一先看疗效: 1. 无需公钥 2. 只需要几个最常用的Linux命令就可以搭建看步骤 1. 准备Linux服务器, 安装好git(一般都是默认装好的) 2. 命令行操作 useradd g ...

新手问题：在asp.net里怎样使用和写函数(Function)、子程序(Sub)

问题描述各位前辈:我想写一个读取设备类型的函数(或子程序,我也不知道用那种),然后把读出的数据放入<asp:ListBox>里,再在表单文件中调用该函数(或子程序),我的写法是这样的:文 ...

如何提高网站的成交率？

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅最近在研究市场营销,发现里面有很多 ...

问下各位:怎么在一个对象里面,取出这个对象里面的另一个对象的属性?

问题描述如题!!!!!!!!~~~~部分代码如下:publicclassuserinfo(){privateStringuserId;privateStringuserName;privateAdd ...

java中boolean与字符串或者数字1和0的转换

mysql有个字段是bit,只存储1和0,是二进制存储,那么在java的dao层如何映射成boolean呢 @Column(name="is_standard") private ...

马云指点B2B私有化高管称必定整体上市

一位阿里巴巴集团高层对本报说,阿里集团各项业务的相互关联已不可能完全拆散,未来必定是集团整体上市.马云是在下一盘大棋么?看来有点像.本周二晚间,传得沸沸扬扬的阿里巴巴B2B公司私有化传闻落地.阿里巴 ...

报表几种常用数据方案

背景最近做了比较多的报表需求,在这里小结一下,希望对后续工作有帮助.报表是数据分析的形象化展示,目前有比较多好用的产品,比如QuickBI,Tableau等,让报表页面的工作能够方便的所见即所得:我 ...

XP 宣布正式停止服务的日子，也是 Openssl 爆出大漏洞的日子

整个下午我们都处于应急状态中,精神紧绷,这个漏洞影响 30-50%比例使用 https 的网站,其中包括大家经常访问的:支付宝.微信.淘宝.网银.社交.门户等知名网站. 只要访问 https 的网站便 ...

socket error 错误类型列表

SOCKET_E2BIG 参数列表太长 SOCKET_EACCES 没有许可权限 SOCKET_EADDRINUSE 地址已经被使用 SOCKET_EADDRNOTAVAIL 不能解析请求的地址 SO ...

IOS倒计时设置UIButton标题title的抖动问题_IOS

例如,在发送验证码后,button状态需要变为disable,每隔一秒显示倒计时时间,仅仅设置 [button setTitle:title forState:UIControlStateDisabl ...

Android中捕获TTextView文本中的链接点击事件方法_Android

Android中的TTextView很强大,我们可以不仅可以设置纯文本为其内容,还可以设置包含网址和电子邮件地址的内容,并且使得这些点击可以点击.但是我们可以捕获并控制这些链接的点击事件么,当然是可以 ...

js href的用法_javascript技巧

"window.location.href"."location.href"是本页面跳转 "parent.location.href"是上一 ...

VBS教程：方法-MoveFolder 方法_vbs

MoveFolder 方法将一个或多个文件夹从某位置移动到另一位置. object.MoveFolder source, destination 参数 object 必选项.应为 FileSyste ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.019 s.