目 录
[第1章 概述
1.1 多核计算机时代 ]()
1.2 并行计算机的分类
[1.3 现代计算机概览
1.3.1 Cell BE处理器
1.3.2 NVIDIA Kepler
1.3.3 AMD APU
1.3.4 从多核到众核:Tilera TILE-Gx8072和Intel Xeon Phi ]()
1.4 性能指标
[1.5 并行程序性能的预测与测量
1.5.1 Amdahl定律
1.5.2 Gustafson-Barsis定律 ]()
[第2章 多核和并行程序设计
2.1 引言 ]()
2.2 PCAM方法学
[2.3 分解模式
2.3.1 任务并行
2.3.2 分而治之分解
2.3.3 几何分解
2.3.4 递归数据分解
2.3.5 流水线分解
2.3.6 基于事件的合作分解 ]()
[2.4 程序结构模式
2.4.1 单程序多数据
2.4.2 多程序多数据
2.4.3 主/从
2.4.4 map-reduce
2.4.5 fork/join
2.4.6 循环并行 ]()
2.5 匹配分解模式和程序结构模式
[第3章 共享内存编程:线程
3.1 引言 ]()
[3.2 线程
3.2.1 线程的定义
3.2.2 线程的作用
3.2.3 线程的生成和初始化
3.2.4 在线程间共享数据 ]()
3.3 设计考虑
3.4 信号量
[3.5 经典问题中的信号量
3.5.1 生产者–消费者
3.5.2 终止处理
3.5.3 理发师问题:引入公平性
3.5.4 读者–写者问题 ](/)
[3.6 monitor
3.6.1 设计方法1:monitor内部的关键区
3.6.2 设计方法2:monitor控制关键区的入口 ]()
[3.7 经典问题中的monitor
3.7.1 重新考虑生产者–消费者问题
3.7.2 重新考虑读者–写者问题 ]()
[3.8 动态线程管理与静态线程管理
3.8.1 Qt线程池
3.8.2 线程池的创建和管理 ](/)
3.9 调试多线程应用
3.10 高层次结构:无须显式利用线程的多线程编程
3.10.1 并发map
3.10.2 map-reduce
3.10.3 并发过滤
3.10.4 filter-reduce
3.10.5 案例研究:多线程存储
3.10.6 案例研究:多线程图像匹配
第4章 共享内存编程:OpenMP
4.1 引言
4.2 第一个OpenMP程序
4.3 变量作用域
4.3.1 定积分OpenMP版本V.0:人工划分
4.3.2 定积分OpenMP版本 V.1:无竞争条件的人工划分
4.3.3 定积分OpenMP V.2:基于锁的隐式划分
4.3.4 定积分OpenMP V.3:基于归约的隐式划分
4.3.5 变量作用域总结
4.4 循环级并行
4.4.1 数据依赖
4.4.2 嵌套循环
4.4.3 调度
4.5 任务并行
4.5.1 sections指令
4.5.2 task指令
4.6 同步结构
4.7 正确性与优化问题
4.7.1 线程安全
4.7.2 假共享
4.8 案例研究:OpenMP中的排序算法
4.8.1 自下而上归并排序算法的OpenMP实现
4.8.2 自上而下归并排序算法的OpenMP实现
4.8.3 性能评估
第5章 分布式内存编程
5.1 通信进程
5.2 MPI
5.3 核心概念
5.4 你的第一个MPI程序
5.5 程序体系结构
5.5.1 SPMD
5.5.2 MPMD
5.6 点对点通信
5.7 可选的点对点通信模式
5.8 非阻塞通信
5.9 点对点通信小结
5.10 错误报告与处理
5.11 集合通信简介
5.11.1 分发
5.11.2 收集
5.11.3 归约
5.11.4 多对多收集
5.11.5 多对多分发
5.11.6 多对多归约
5.11.7 全局同步
5.12 通信对象
5.12.1 派生数据类型
5.12.2 打包/解包
5.13 节点管理:通信器和组
5.13.1 创建组
5.13.2 建立内部通信器
5.14 单边通信
5.14.1 RMA通信函数
5.14.2 RMA同步函数
5.15 I/O注意事项
5.16 MPI多进程和多线程混合编程
5.17 时序和性能测量
5.18 调试和分析MPI程序
5.19 Boost.MPI库
5.19.1 阻塞和非阻塞通信
5.19.2?数据序列化
5.19.3?集合通信
5.20 案例研究:有限扩散聚合模型
5.21 案例研究:暴力加密破解
5.21.1 版本1:“基本型”MPI
5.21.2 版本2:MPI与OpenMP的结合
5.22 案例研究:主/从式并行模型的MPI实现
5.22.1 简单主/从式设置
5.22.2 多线程主/从式设置
第6章 GPU编程
6.1 GPU编程简介
6.2 CUDA编程模型:线程、线程块、线程网格
6.3 CUDA执行模型:流多处理器和warp
6.4 CUDA程序编译过程
6.5 构建CUDA项目
6.6 内存层次结构
6.6.1 本地内存/寄存器
6.6.2 共享内存
6.6.3 常量内存
6.6.4 texture和surface内存
6.7 优化技术
6.7.1 线程组织设计
6.7.2 kernel结构
6.7.3 共享内存访问
6.7.4 全局内存访问
6.7.5 page-locked与zero-copy内存
6.7.6 统一内存
6.7.7 异步执行和流
6.8 动态并行
6.9 CUDA程序的调试
6.10 CUDA程序剖析
6.11 CUDA和MPI
6.12 案例研究
6.12.1 分形集合计算
6.12.2 块加密算法
第7章 Thrust模板库
7.1 引言
7.2 使用Thrust的第一步
7.3 Thrust数据类型
7.4 Thrust算法
7.4.1 变换算法
7.4.2 排序与查询
7.4.3 归约
7.4.4 scan /前缀和
7.4.5 数据管理与处理
7.5 花式迭代器
7.6 交换设备后端
7.7 案例研究
7.7.1 蒙特卡洛积分
7.7.2 DNA序列比对
第8章 负载均衡
8.1 引言
8.2 动态负载均衡:Linda的遗赠
8.3 静态负载均衡:可分负载理论方法
8.3.1 建模开销
8.3.2 通信设置
8.3.3 分析
8.3.4 总结?:简短的文献综述
8.4 DLTlib:分割工作负载的库
8.5 案例研究
8.5.1 Mandelbrot集“电影”的混合计算:动态负载均衡案例研究
8.5.2 分布式块加密:静态负载均衡案例研究
在线资源
附录A 编译Qt程序
附录B 运行MPI程序:准备与配置步骤
附录C 测量时间
附录D Boost.MPI
附录E CUDA环境搭建
附录F DLTlib
术语表
参考文献
《多核与GPU编程:工具、方法及实践》----导读
时间: 2024-10-03 23:13:47
《多核与GPU编程:工具、方法及实践》----导读的相关文章
《深入理解Scala》——第1章,第1.2节当函数式编程遇见面向对象
1.2 当函数式编程遇见面向对象 深入理解Scala 函数式编程和面向对象编程是软件开发的两种不同途径.函数式编程并非什么新概念,在现代开发者的开发工具箱里也绝非是什么天外来客.我们将通过Java生态圈里的例子来展示这一点,主要来看Spring Application framework和Google Collections库.这两个库都在Java的面向对象基础上融合了函数式的概念,而如果我们把它们翻译成Scala,则会优雅得多.在深入之前,我们需要先理解面向对象编程和函数式编程这两个术语的含义
《深入理解Scala》——第1章,第1.4节与JVM的无缝集成
1.4 与JVM的无缝集成 深入理解Scala Scala的吸引力之一在于它与Java和JVM的无缝集成.Scala与Java有很强的兼容性,比如说Java类可以直接映射为Scala类.这种紧密联系使Java到Scala的迁移相当简单,但在使用Scala的一些高级特性时还是需要小心的,Scala有些高级特性是Java里没有的.在Scala语言设计时已经小心地考虑了与Java无缝交互的问题,用Java写的库,大部分可以直接照搬(as-is)到Scala里. 1.4.1 Scala调用Java 从S
《深入理解Scala》——第2章,第2.1节学习使用Scala交互模式(REPL)
第2章 核心规则深入理解Scala 本章包括的内容: • 使用Scala交互模式(Read Eval Print Loop 简称REPL) • 面向表达式编程 • 不变性(Immutability) • Option类 本章内容覆盖了每个新Scala开发者都需要知道的几个主题.本章不会深入到每个主题里,但是会讲到可以让你自己去接着探索的程度.你将学会使用REPL,学会如何利用这个工具做软件的快速原型开发.然后我们会学到面向表达式编程,并从另一个视角来看控制结构是怎么回事.在此基础上,我们来研究不
《深入理解Scala》——第1章,第1.3节静态类型和表达力
1.3 静态类型和表达力 深入理解Scala 开发人员中有一个误解,认为静态类型必然导致冗长的代码.之所以如此是因为很多继承自C的语言强制要求程序员必须在代码中多处明确地指定类型.随着软件开发技术和编译器理论的发展,情况已经改变.Scala利用了其中一些技术进步来减少样板(boilerplate)代码,保持代码简洁. Scala做了以下几个简单的设计决策,以提高代码表达力. • 把类型标注(type annotation)换到变量右边. • 类型推断. • 可扩展的语法. • 用户自定义的隐式转
《深入理解Scala》——第1章,第1.5节总结
1.5 总结 深入理解Scala 本章中,你学到了一些Scala的设计理念.设计Scala的初衷在于把不同语言中的多种概念融合起来.Scala融合了函数式和面向对象编程,尽管显然Java也已经这么做了.Scala精选其语法,极大地减少了语言中的繁冗之处,使一些强大的特性可以优雅地表达,比如类型推断.最后,Scala和Java能够紧密集成,而且运行在Java虚拟机上,这或许是让Scala变成一种实用选择的最重要的一点.几乎不花代价就可以把Scala用于我们的日常工作中. 因为Scala融合了多种概
《深入理解Scala》——第1章,第1.1节Scala一种混合式编程语言
第1章 Scala--一种混合式编程语言 Scala是一种将其他编程语言中的多种技巧融合为一的语言.Scala尝试跨越多种不同类型的语言,给开发者提供面向对象编程.函数式编程.富有表达力的语法.静态强类型和丰富的泛型等特性,而且全部架设于Java虚拟机之上.因此开发者使用Scala时可以继续使用原本熟悉的某种编程特性,但要发挥Scala的强大能力则需要结合使用这些有时候相互抵触的概念和特性,建立一种平衡的和谐.Scala对开发者的真正解放之处在于让开发者可以随意使用最适合手头上的问题的编程范式.
《深入理解Scala》——第2章,第2.2节优先采用面向表达式编程
2.2 优先采用面向表达式编程 深入理解Scala 面向表达式编程是个术语,意思是在代码中使用表达式而不用语句.表达式和语句的区别是什么?语句是可以执行的东西,表达式是可以求值的东西.在实践中这有什么意义呢?表达式返回值,语句执行代码,但是不返回值.本节我们将学习面向表达式编程的全部知识,并理解它对简化程序有什么帮助.我们也会看一下对象的可变性,以及可变性与面向表达式编程的关系. 作者注:语句VS表达式 语句是可以执行的东西,表达式是可以求值的东西. 表达式是运算结果为一个值的代码块.Scala
《深入理解Scala》——第2章,第2.3节优先选择不变性
2.3 优先选择不变性 深入理解Scala 编程中的不变性指对象一旦创建后就不再改变状态.这是函数式编程的基石之一,也是JVM上的面向对象编程的推荐实践之一.Scala也不例外,在设计上优先选择不变性,在很多场景中把不变性作为默认设置.对此,你可能一下子会不适应.本节中,我们将学到不变性对于判等问题和并发编程能提供什么帮助. Scala里首先要明白的是不变对象和不变引用(immutable referene)的区别.Scala里的所有变量都是指向对象的引用.把变量声明为val意味着它是个不变"引
《深入理解Scala》——第2章,第2.4节用None不用null
2.4 用None不用null深入理解Scala Scala在标准库里提供了scala.Option类,鼓励大家在一般编程时尽量不要使用null.Option可以视作一个容器,里面要么有东西,要么什么都没有.Option通过两个子类来实现此含义:Some和None.Some表示容器里有且仅有一个东西,None表示空容器,有点类似List的Nil的含义. 在Java和其他允许null的语言里,null经常作为一个占位符用于返回值,表示非致命的错误,或者表示一个变量未被初始化.Scala里,你可以用
《深入理解Scala》——第2章,第2.5节多态场景下的判等
2.5 多态场景下的判等 深入理解Scala 众所周知,为多态的面向对象系统定义合适的判等和散列方法是个特别难的过程.这是因为子类可能在整个过程中造成一些相当怪异的问题,尤其是当类型层次上有多个实体(concrete)级别的时候.一般来说,对于需要比引用判等更强的判等(译者注:比如需要判断对象内部数据)的类,最好避免多层实体类层次.这是什么意思呢?有些时候类只需要引用判等就够了.也就是说只要两个对象不是同一个实例就判为不等.但是如果我们需要判断两个不同实例是否相等,而且又有多层实体类层次(mul