《CUDA C编程权威指南》——3.5　展开循环

3.5　展开循环

循环展开是一个尝试通过减少分支出现的频率和循环维护指令来优化循环的技术。在循环展开中，循环主体在代码中要多次被编写，而不是只编写一次循环主体再使用另一个循环来反复执行的。任何的封闭循环可将它的迭代次数减少或完全删除。循环体的复制数量被称为循环展开因子，迭代次数就变为了原始循环迭代次数除以循环展开因子。在顺序数组中，当循环的迭代次数在循环执行之前就已经知道时，循环展开是最有效提升性能的方法。考虑下面的代码：

如果重复操作一次循环体，迭代次数能减少到原始循环的一半：

从高级语言层面上来看，循环展开使性能提高的原因可能不是显而易见的。这种提升来自于编译器执行循环展开时低级指令的改进和优化。例如，在前面循环展开的例子中，条件i< 100只检查了50次，而在原来的循环中则检查了100次。另外，因为在每个循环中每个语句的读和写都是独立的，所以CPU可以同时发出内存操作。

在CUDA中，循环展开的意义非常重大。我们的目标仍然是相同的：通过减少指令消耗和增加更多的独立调度指令来提高性能。因此，更多的并发操作被添加到流水线上，以产生更高的指令和内存带宽。这为线程束调度器提供更多符合条件的线程束，它们可以帮助隐藏指令或内存延迟。

3.5.1　展开的归约

你可能会注意到，在reduceInterleaved核函数中每个线程块只处理一部分数据，这些数据可以被认为是一个数据块。如果用一个线程块手动展开两个数据块的处理，会怎么样？以下的核函数是reduceInterleaved核函数的修正版：每个线程块汇总了来自两个数据块的数据。这是一个循环分区（在第1章中已介绍）的例子，每个线程作用于多个数据块，并处理每个数据块的一个元素：

注意要在核函数的开头添加的下述语句。在这里，每个线程都添加一个来自于相邻数据块的元素。从概念上来讲，可以把它作为归约循环的一个迭代，此循环可在数据块间归约：

如下所示，全局数组索引被相应地调整，因为只需要一半的线程块来处理相同的数据集。请注意，这也意味着对于相同大小的数据集，向设备显示的线程束和线程块级别的并行性更低。图3-25所示为每个线程的数据访问。

向主函数添加下面的代码，调用新的核函数：

因为现在每个线程块处理两个数据块，我们需要调整内核的执行配置，将网格大小减小至一半：

现在编译和运行这些代码，出现以下结果：

即使只进行简单的更改，现在核函数的执行速度比原来快3.42倍。可以进一步展开以产生更好的性能吗？reduceInteger.cu文件包含着展开的核函数中其他的两个实现，如下所示：

相应的结果概括如下：

正如预想的一样，在一个线程中有更多的独立内存加载/存储操作会产生更好的性能，因为内存延迟可以更好地被隐藏起来。可以使用设备内存读取吞吐量指标，以确定这就是性能提高的原因：

结果总结如下，归约的展开测试用例和设备读吞吐量之间是成正比的：

3.5.2　展开线程的归约

__syncthreads是用于块内同步的。在归约核函数中，它用来确保在线程进入下一轮之前，每一轮中所有线程已经将局部结果写入全局内存中了。

然而，要细想一下只剩下32个或更少线程（即一个线程束）的情况。因为线程束的执行是SIMT（单指令多线程）的，每条指令之后有隐式的线程束内同步过程。因此，归约循环的最后6个迭代可以用下述语句来展开：

这个线程束的展开避免了执行循环控制和线程同步逻辑。

注意变量vmem是和volatile修饰符一起被声明的，它告诉编译器每次赋值时必须将vmem[tid]的值存回全局内存中。如果省略了volatile修饰符，这段代码将不能正常工作，因为编译器或缓存可能对全局或共享内存优化读写。如果位于全局或共享内存中的变量有volatile修饰符，编译器会假定其值可以被其他线程在任何时间修改或使用。因此，任何参考volatile修饰符的变量强制直接读或写内存，而不是简单地读写缓存或寄存器。

基于reduceUnrolling8，线程束的展开可以添加到归约核函数中，如下所示：