使用cProfile等工具来提高python的执行速度

更多深度文章,请关注:https://yq.aliyun.com/cloud

本文假定你已经十分熟悉Python。

众所周知,Python是一种解释性的语言,执行速度相比C、C++等语言十分缓慢;因此我们需要在其它地方上下功夫来提高代码的执行速度。

首先需要对代码进行分析。

代码分析

傻乎乎地一遍又一遍地检查代码并不会对分析代码的执行时间有多大帮助,你需要借助一些工具。

先看下面这段程序:

"""Sorting a large, randomly generated string and writing it to disk"""
import random

def write_sorted_letters(nb_letters=10**7):
    random_string = ''
    for i in range(nb_letters):
        random_string += random.choice('abcdefghijklmnopqrstuvwxyz')
    sorted_string = sorted(random_string)

    with open("sorted_text.txt", "w") as sorted_text:
        for character in sorted_string:
            sorted_text.write(character)

write_sorted_letters()

瓶颈在磁盘存取,很显然易见是不是?我们走着瞧。

调优器(profiler)能够精确地告诉我们程序在执行时发生了什么。它能够自动计时并计数程序中的每一行代码,从而节省大量时间,是优化代码的第一选择。

全代码分析

所有合格的IDE都集成有一个调优器,点一下就可以了;如果是在命令行中进行调用,代码如下:

python -m cProfile -s tottime your_program.py

结果如下:

        40000054 function calls in 11.362 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
 10000000    4.137    0.000    5.166    0.000 random.py:273(choice)
        1    3.442    3.442   11.337   11.337 sort.py:5(write_sorted_letters)
        1    1.649    1.649    1.649    1.649 {sorted}
 10000000    0.960    0.000    0.960    0.000 {method 'write' of 'file' objects}
 10000000    0.547    0.000    0.547    0.000 {method 'random' of '_random.Random' objects}
 10000000    0.482    0.000    0.482    0.000 {len}
        1    0.121    0.121    0.121    0.121 {range}
        1    0.021    0.021   11.362   11.362 sort.py:1(<module>)
...

结果按总时间排序(-s tottime),靠前的更应该被优化。本例中,random模组中的choice函数花费了总时间的将近1/3,现在你知道瓶颈在哪里了吧。

迫不及待去做优化了?别急,代码分析有好几种方法。

块分析

你可能已经注意到,之前我们是对整个程序段进行分析的。如果你只对某一部分代码感兴趣,只需要在这部分代码的前后加上下面这两段代码即可:

import cProfile
cp = cProfile.Profile()
cp.enable()

and

cp.disable()
cp.print_stats()

结果与全代码分析的类似,但是只包含你感兴趣的部分。但是一般来说,你不应该直接使用块分析,在这之前请务必先做因此全代码分析。

有关cProfile还有Profile的更多信息,请点击

行分析

比块分析更精确地是行分析。进行行分析需要额外安装line_profiler

pip install
line_profiler

安装成功后,修改代码,在每一行你想分析的代码前增加@profile,如下所示:

@profile
def write_sorted_letters(nb_letters=10**7):
    ...

最后在命令行中输入如下代码:

kernprof -l -v your_program.py

·        -l 逐行分析

·        -v 立即查看结果

结果如下所示:

Total time: 21.4412 s
File: ./sort.py
Function: write_sorted_letters at line 5

Line #      Hits         Time    Per Hit   % Time  Line Contents
================================================================
     5                                             @profile
     6                                             def write_sorted_letters(nb_letters=10**7):
     7         1            1        1.0      0.0      random_string = ''
     8  10000001      3230206        0.3     15.1      for _ in range(nb_letters):
     9  10000000      9352815        0.9     43.6          random_string += random.choice('abcdefghijklmnopqrstuvwxyz')
    10         1      1647254  1647254.0      7.7      sorted_string = sorted(random_string)
    11
    12         1         1334     1334.0      0.0      with open("sorted_text.txt", "w") as sorted_text:
    13  10000001      2899712        0.3     13.5          for character in sorted_string:
    14  10000000      4309926        0.4     20.1              sorted_text.write(character)

注意,代码执行的速度变慢了,从11秒上升到了21秒。但是瑕不掩瑜,我们知道了是哪一行拖了整段代码的后腿。

实时不间断网页应用该如何分析代码?

我们先来看一下需要的Profiling module

安装后通过如下命令运行:profiling your_program.py。不要忘了删除在行分析中使用的装饰器(@profile)。

结果如下所示:

结果是交互式的,你可以使用方向键轻松浏览或者折叠/打开每一行。

如果是需要长时间运行的程序(譬如网页服务器),也有响应的分析代码,命令类似于:profiling
live-profile your_server_program.py。一旦开始运行,你可以在程序运行时与之交互,并观察程序的性能。

分析方法

优化

想知道你是否在循环中浪费了大量时间?现在我们知道程序在哪些地方花费了大量CPU时间,我们可以针对性的进行优化。

注意

只有在必要的时候和必要的地方才进行优化,因为优化后的代码通常比优化前更加难以理解和维护。

简单而言,优化是拿可维护性换取性能。

Numpy

看起来random.choice函数拖了后腿,就让我们使用著名的numpy库中的类似函数来代替它。新代码如下:

"""Sorting a large, randomly generated string and writing it to disk"""
from numpy import random

def write_sorted_letters(nb_letters=10**7):
    letters = tuple('abcdefghijklmnopqrstuvwxyz')

    random_letters = random.choice(letters, nb_letters)
    random_letters.sort()

    sorted_string = random_letters.tostring()

    with open("sorted_text.txt", "w") as sorted_text:
        for character in sorted_string:
            sorted_text.write(character)

write_sorted_letters()

Numpy包含有许多强大且速度块的数学函数,安装命令为:pip install numpy。

对优化后的代码进行性能分析,结果如下:

        10011861 function calls (10011740 primitive calls) in 3.357 seconds

   Ordered by: internal time

   ncalls  tottime  percall  cumtime  percall filename:lineno(function)
 10000000    1.272    0.000    1.272    0.000 {method 'write' of 'file' objects}
        1    1.268    1.268    3.321    3.321 numpy_sort.py:5(write_sorted_letters)
        1    0.657    0.657    0.657    0.657 {method 'sort' of 'numpy.ndarray' objects}
        1    0.120    0.120    0.120    0.120 {method 'choice' of 'mtrand.RandomState' objects}
        4    0.009    0.002    0.047    0.012 __init__.py:1(<module>)
        1    0.003    0.003    0.003    0.003 {method 'tostring' of 'numpy.ndarray' objects}
...

新代码比之前的版本块了将近4倍(3.3秒vs11.362秒)!现在轮到写操作拖后腿了,优化方法是舍弃如下代码

with open("sorted_text.txt", "w") as sorted_text:
    for character in sorted_string:
        sorted_text.write(character)

代之以如下代码:

with open("sorted_text.txt", "w") as sorted_text:
    sorted_text.write(sorted_string)

新代码一次写入整个字符串,而之前是逐个字符写入。

统计一下整段代码的时间,如下所示:

time python your_program.py

Which gives us:

real 0m0.874s
user 0m0.852s
sys  0m0.280s

总时间从11秒减少到了不到1秒!是不是很棒?

其它优化技巧

记住电脑中的这些参数

Latency Comparison Numbers
--------------------------
L1 cache reference                           0.5 ns
Branch mispredict                            5   ns
L2 cache reference                           7   ns                      14x L1 cache
Mutex lock/unlock                           25   ns
Main memory reference                      100   ns                      20x L2 cache, 200x L1 cache
Compress 1K bytes with Zippy             3,000   ns        3 us
Send 1K bytes over 1 Gbps network       10,000   ns       10 us
Read 4K randomly from SSD*             150,000   ns      150 us          ~1GB/sec SSD
Read 1 MB sequentially from memory     250,000   ns      250 us
Round trip within same datacenter      500,000   ns      500 us
Read 1 MB sequentially from SSD*     1,000,000   ns    1,000 us    1 ms  ~1GB/sec SSD, 4X memory
Disk seek                           10,000,000   ns   10,000 us   10 ms  20x datacenter roundtrip
Read 1 MB sequentially from disk    20,000,000   ns   20,000 us   20 ms  80x memory, 20X SSD
Send packet CA->Netherlands->CA    150,000,000   ns  150,000 us  150 ms

来自于Latency Numbers Every Programmer Should Know

其它资源

·       
Python performance tips

·       
Numpy

·       
Numba,通过JIT(just in time)甚至GPU的使用来加速代码。

·       
Anaconda,一个集成环境,包含了Numpy、Numba以及其它许多针对数据科学还有数学计算的扩展包。

 

作者:Sylvain Josserand。

译者注:原文提供的代码在验证时存在些许问题,可能是版本不一造成的。

本文由北邮@爱可可-爱生活老师推荐,阿里云组织翻译。

文章原标题《Profiling and
optimizing your Python code》,作者:Sylvain Josserand,译者:杨辉,审阅:,附件为原文的pdf。

文章为简译,更为详细的内容,请查看原文

 

 

时间: 2024-09-23 03:39:34

使用cProfile等工具来提高python的执行速度的相关文章

利用ctypes提高Python的执行速度_python

前言 ctypes是Python的外部函数库.它提供了C兼容的数据类型,并且允许调用动态链接库/共享库中的函数.它可以将这些库包装起来给Python使用.这个引入C语言的接口可以帮助我们做很多事情,比如需要调用C代码的来提高性能的一些小型问题.通过它你可以接入Windows系统上的 kernel32.dll 和 msvcrt.dll 动态链接库,以及Linux系统上的 libc.so.6 库.当然你也可以使用自己的编译好的共享库 我们先来看一个简单的例子 我们使用 Python 求 100000

盘点提高 Python 代码效率的方法_python

第一招:蛇打七寸:定位瓶颈 首先,第一步是定位瓶颈.举个简单的栗子,一个函数可以从1秒优化到到0.9秒,另一个函数可以从1分钟优化到30秒,如果要花的代价相同,而且时间限制只能搞定一个,搞哪个?根据短板原理,当然选第二个啦. 一个有经验的程序员在这里一定会迟疑一下,等等?函数?这么说,还要考虑调用次数?如果第一个函数在整个程序中需要被调用100000次,第二个函数在整个程序中被调用1次,这个就不一定了.举这个栗子,是想说明,程序的瓶颈有的时候不一定一眼能看出来.还是上面那个选择,程序员的你应该有

提高Python运行效率的六个窍门

  Python是一门优秀的语言,它能让你在短时间内通过极少量代码就能完成许多操作.不仅如此,它还轻松支持多任务处理,比如多进程. 不喜欢Python的人经常会吐嘈Python运行太慢.但是,事实并非如此.尝试以下六个窍门,来为你的Python应用提速. 窍门一:关键代码使用外部功能包 Python简化了许多编程任务,但是对于一些时间敏感的任务,它的表现经常不尽人意.使用C/C++或机器语言的外部功能包处理时间敏感任务,可以有效提高应用的运行效率.这些功能包往往依附于特定的平台,因此你要根据自己

六个窍门助你提高Python运行效率

  这篇文章主要介绍了六个窍门助你提高Python运行效率,本文讲解了关键代码使用外部功能包.在排序时使用键.针对循环的优化.使用较新的Python版本等优化窍门,需要的朋友可以参考下 不喜欢Python的人经常会吐嘈Python运行太慢.但是,事实并非如此.尝试以下六个窍门,来为你的Python应用提速. 窍门一:关键代码使用外部功能包 Python简化了许多编程任务,但是对于一些时间敏感的任务,它的表现经常不尽人意.使用C/C++或机器语言的外部功能包处理时间敏感任务,可以有效提高应用的运行

四款工具顺利实现 Python 与 JavaScript 间的代码转换

四款工具顺利实现 Python 与 JavaScript 间的代码转换 选 Python 还是 JavaScript?虽然不少朋友还在争论二者目前谁更强势.谁又拥有着更为光明的发展前景,但毫无疑问,二者的竞争在 Web 前端领域已经拥有明确的答案.立足于浏览器平台,如果放弃 JavaScript,我们也就没什么可选择的项目了. 好吧,也许答案也不是这么绝对.JavaScript 已经成为众多其它编程语言争相选择的转换目标(相关实例包括 TypeScript.Emscripten.Cor 以及 C

使用WEB工具快速提高Android开发效率_Android

正所谓工欲善其事,必先利其器.学习并应用优秀的轮子,可以让我们跑的更快,走的更远.这里所指的工具是广义的,泛指能帮助我们开发的东西,或者能提高我们效率的东西,包括:开发工具,监测工具,第三方代码库等. 在Google的广大支持下,便捷开发Android程序的Native工具层出不穷.其实Android开发涉及到的范围也不小,一些Web工具有时候也会带来事半功倍的效果.有些甚至是一些native应用无法做到的.本文,将简单列举一下本人正在使用的一些工具,当然也会持续更新. 查找优秀的参考工程 co

介绍几款关键词建议工具 提高关键词选择的速度

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 在构建关键词列表的过程中应该使用一些关键词建议工具(keyword suggestion tool).虽然说过份依赖工具不是好事,但是适度使用一些工具,减轻自己的工作压力也是非常有必要的!关键词工具会根据您在工具中输入的基本单词给您提供一份供参考的关键词列表.它所提供的关键词列表中可能会出现您之前不曾想到的单词,也有可能会出现一些您客户不曾提

使用WEB工具快速提高Android开发效率

正所谓工欲善其事,必先利其器.学习并应用优秀的轮子,可以让我们跑的更快,走的更远.这里所指的工具是广义的,泛指能帮助我们开发的东西,或者能提高我们效率的东西,包括:开发工具,监测工具,第三方代码库等. 在Google的广大支持下,便捷开发Android程序的Native工具层出不穷.其实Android开发涉及到的范围也不小,一些Web工具有时候也会带来事半功倍的效果.有些甚至是一些native应用无法做到的.本文,将简单列举一下本人正在使用的一些工具,当然也会持续更新. 查找优秀的参考工程 co

如何才能有效提高营销团队执行力

如何才能有效提高营销团队执行力? <把信送给加西亚>以及美国西点军校"没有任何借口",其实强调的都是执行力.但这是理想中的执行力.作为营销团队要想真正地提升执行力,还必须从实际出发,一点一滴抓执行,从而让执行力不至于落空.执行力关系到企业的成败,要想打造营销团队的执行力,就要做到"树立一个观念,坚持四定法则,使用好一个工具". 树立职业的观念 <长征>中红军第五次反围剿,就其战略而言其实是一个错误的决策,可广大的指战员还是不折不扣地执行,虽遭