C语言中对于循环结构优化的一些入门级方法简介_C 语言

一.代码移动

将在循环里面多次计算,但是结果不会改变的计算,移到循环外面去。

例子:

优化前:

void lower1(char *s){
int i;
for(i=0;i<strlen(s);++i)
   if(s[i]>='A'&&s[i]<='Z')
    s[i]-=('A'-'a');
}
优化后:
void lower2(char *s){
int i;
int len=strlen(s);
for(int i=0;i<len;++i)
  if(s[i]>='A'&&s[i]<='Z')
    s[i]-=('A'-'a');
}

优化前的版本,由于每次循环都要调用strlen计算s的长度,实际上的复杂度成了O(n2)了,而优化后的版本只需计算一次s的长度,因此性能上比优化前版本要好。

二.减少函数调用

例子:

优化前:

void sum1(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
*dest=0;
for(i=0;i<len;++i){
  data_t val;
  get_vec_element(v,i,&val);
  *dest+=val;
}
}

优化后:

data_t get_vec_start(vec_ptr v){
return v->data;
}

void sum2(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
data_t *data=get_vec_start(v);
*dest=0;
for(i=0;i<len;++i)
  *dest+=data[i];
}

优化前的版本在每次循环中都要调用一次get_vec_element获得相应的项,而优化后的版本只需在循环外调用一次get_vec_start获得开始的内存地址,循环内直接访问内存,无需调用函数。

三.减少内存访问

例子:

优化前:

void sum2(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
data_t *data=get_vec_start(v);
*dest=0;
for(i=0;i<len;++i)
  *dest+=data[i];
}

优化后:

void sum3(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
data_t *data=get_vec_start(v);
data_t acc=0;
for(i=0;i<len;++i)
  acc+=data[i];
*dest=acc;
}

优化前的版本每次迭代都要从dest读出值再加上data[i],再将结果写回dest。这样的读写很浪费,因此每次迭代开始从dest读出的值就是上次迭代写回dest的指。优化后的版本通过加入acc临时变量,它循环中累积计算出的结果,循环结束后再写回。

这里给出两个版本相应的汇编结果就可以很清楚看出区别:

优化前:

优化前的版本每次迭代都要从dest读出值再加上data[i],再将结果写回dest。这样的读写很浪费,因此每次迭代开始从dest读出的值就是上次迭代写回dest的指。优化后的版本通过加入acc临时变量,它循环中累积计算出的结果,循环结束后再写回。

第二行和第四行分别对dest进行了读写。

优化后:

从汇编结果可以看出编译器将acc直接放在了寄存器里,循环中无需对内存进行读写。

四.循环展开

循环展开可以减少循环的次数,对程序的性能带了两方面的提高。一是减少了对循环没有直接贡献的计算,比如循环计数变量的计算,分支跳转指令的执行等。二是提供了进一步利用机器特性进行的优化的机会。

例子:

优化前的代码见前一篇博客里的sum3.

优化后:

void sum4(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
int limit=len-3;
data_t *data=get_vec_start(v);
data_t acc=0;
for(i=0;i<limit;i+=4){
  acc=acc+data[i]+data[i+1];
  acc=acc+data[i+2]+data[i+3];
}
for(;i<len;++i)
  acc+=data[i];

*dest=acc;
}

通过循环展开,每次迭代将累加4个元素,减少了循环次数,从而减少了总的执行时间(单独使用这种优化方法,对浮点数累乘几乎没有提高,但是整数累乘得益于编译器的重关联代码变化会有大幅度提高)。

这种优化可以直接利用编译器完成,将优化level设定到较高,编译器会自动进行循环展开。使用gcc,可以显式使用-funroll-loops选项。

五.提高并行性

现代处理器大多采用了流水线、超标量等技术,可以实现指令级并行。我们可以利用这个特性对代码做进一步的优化。

2.1使用多个累积变量

优化代码示例

void sum5(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
int limit=len-1;
data_t *data=get_vec_start(v);
data_t acc0=0;
data_t acc1=0;
for(i=0;i<limit;i+=2){
  acc0+=data[i];
  acc1+=data[i+1];
}
for(;i<len;++i)
  acc0+=data[i];

*dest=acc0+acc1;
}

这里同时使用了循环展开和使用多个累加变量,一方面减少了循环次数,另一方面指令级并行的特性使得每次迭代的两次加法可以并行执行。基于这两点可以显著减少程序执行的时间。通过增加展开的次数和累加变量的个数,可以进一步提高程序的性能,直到机器指令执行的吞吐量的极限。

2.2重结合变换

除了使用多个累积变量显式利用机器的指令级并行特性外,还可以对运算重新结合变换,打破顺序相关性来享受指令级并行带来的好处。

在sum4中,acc=acc+data[i]+data[i+1]的结合顺序是acc=(acc+data[i])+data[i+1];

我们将之变成acc=acc+(data[i]+data[i+1]);

代码如下:

void sum6(vec_ptr v,data_t *dest){
int i;
int len=vec_length(v);
int limit=len-3;
data_t *data=get_vec_start(v);
data_t acc=0;
for(i=0;i<limit;i+=4){
  acc=acc+(data[i]+data[i+1]);
  acc=acc+(data[i+2]+data[i+3]);
}
for(;i<len;++i)
  acc+=data[i];

*dest=acc;
}

进一步增加循环展开的次数,可以进一步提高程序性能,最终也可以达到机器指令执行的吞吐量的极限。(在循环展示提到的整数乘法的性能提高就在于编译器隐式采取了这种变换,但是由于浮点数不具备结合性,所以编译器没有采用,但是程序员在保证程序结果正确性的情况下,可以显式使用这一点)。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索c语言
, 入门
, 循环结构
C语言入门
c语言入门、c语言入门经典、c语言入门视频教程、c语言入门自学、c语言从入门到精通,以便于您获取更多的相关知识。

时间: 2024-10-03 13:05:44

C语言中对于循环结构优化的一些入门级方法简介_C 语言的相关文章

C语言循环结构与时间函数用法实例教程_C 语言

本文实例展示了C语言循环结构与时间函数用法,对于C语言的学习来说是非常不错的参考借鉴材料.分享给大家供大家参考之用.具体如下: 完整实例代码如下: /********************************************** ** <Beginning C 4th Edition> Notes codes ** Created by Goopand ** Compiler: gcc 4.7.0 *****************************************

C++中与输入相关的istream类成员函数简介_C 语言

eof 函数 eof是end of file的缩写,表示"文件结束".从输入流读取数据,如果到达文件末尾(遇文件结束符),eof函数值为非零值(真),否则为0(假). [例] 逐个读入一行字符,将其中的非空格字符输出. #include <iostream> using namespace std; int main( ) { char c; while(!cin.eof( )) //eof( )为假表示未遇到文件结束符 if((c=cin.get( ))!=' ') //

C语言中对文件最基本的读取和写入函数_C 语言

C语言read()函数:读文件函数(由已打开的文件读取数据)头文件: #include <unistd.h> 定义函数: ssize_t read(int fd, void * buf, size_t count); 函数说明:read()会把参数fd 所指的文件传送count 个字节到buf 指针所指的内存中. 若参数count 为0, 则read()不会有作用并返回0. 返回值为实际读取到的字节数, 如果返回0, 表示已到达文件尾或是无可读取的数据,此外文件读写位置会随读取到的字节移动.

C语言中字符串常用函数strcat与strcpy的用法介绍_C 语言

strcpy原型声明:extern char *strcpy(char* dest, const char *src);头文件:#include <string.h>功能:把从src地址开始且含有NULL结束符的字符串复制到以dest开始的地址空间说明:src和dest所指内存区域不可以重叠且dest必须有足够的空间来容纳src的字符串.返回指向dest的指针.函数实现: 复制代码 代码如下: /********************** * C语言标准库函数strcpy的一种典型的工业级的

C++ 中dynamic_cast&amp;amp;lt;&amp;amp;gt;的使用方法小结_C 语言

       即会作一定的判断.        对指针进行dynamic_cast,失败返回null,成功返回正常cast后的对象指针:        对引用进行dynamic_cast,失败抛出一个异常,成功返回正常cast后的对象引用. 注意:dynamic_cast在将父类cast到子类时,父类必须要有虚函数.例如在下面的代码中将CBasic类中的test函数不定义成        virtual时,编译器会报错:error C2683: dynamic_cast : "CBasic&qu

C语言中进程信号集的相关操作函数详解_C 语言

C语言sigismember()函数:测试某个信号是否已加入至信号头文件:#include <signal.h> 定义函数:int sigismember(const sigset_t *set, int signum); 函数说明:sigismember()用来测试参数signum 代表的信号是否已加入至参数set 信号集里. 如果信号集里已有该信号则返回1, 否则返回0. 返回值:信号集已有该信号则返回1, 没有则返回0.如果有错误则返回-1. 错误代码: 1.EFAULT 参数set 指

c语言中十进制转二进制显示小工具的实现代码_C 语言

计算器在显示二进制位数时候,如果开头是0.是不会显示的,对于在单片机混的人,这个有时候很麻烦,所以写个小工具. 功能就是输入十进制数字,然后显示出2进制,每显示4位一次空格,可以调整位数范围(8的倍数) 如果有谁能知道linux下类似win7的那个计算器,麻烦回复告知一下吧.很是感谢~ 例如: $ dec2bin 1 135Num 8 Binary is : 0B1000 0111done!=============================== $ dec2bin 2 135Num 16

Swift 3 语言中的全模块优化

本文讲的是Swift 3 语言中的全模块优化, 全模块优化是一种 Swift 编译器的优化模式.全模块优化的性能提升很大程度上因项目而异,可达到 2 倍甚至 5 倍的提升. 开启全模块优化可以使用 -whole-module-optimization (或者 -wmo)编译器标识,并且在 Xcode 8 中默认在新项目中被打开.另外 Swift 的包管理器在发布构建中使用全模块优化编译. 那么它是关于什么的?让我们先看看没有全模块优化编译器是如何工作的. 什么是模块和如何编译模块 一个模块是 S

Go语言中的匿名结构体用法实例_Golang

本文实例讲述了Go语言中的匿名结构体用法.分享给大家供大家参考.具体实现方法如下: 复制代码 代码如下: package main      import (     "fmt" )      func main() {     var user struct{Name string; Gender int}     user.Name = "dotcoo"     user.Gender = 1     fmt.Printf("%#v\n",