使用火焰图分析CPU性能回退问题

使用火焰图分析CPU性能回退问题

你能快速定位CPU性能回退的问题么? 如果你的工作环境非常复杂且变化快速,那么使用现有的工具是来定位这类问题是很具有挑战性的。当你花掉数周时间把根因找到时,代码已经又变更了好几轮,新的性能问题又冒了出来。

幸亏有了CPU火焰图(flame graphs),CPU使用率的问题一般都比较好定位。但要处理性能回退问题,就要在修改前后的火焰图之间,不断切换对比,来找出问题所在,这感觉就是像在太阳系中搜寻冥王星。虽然,这种方法可以解决问题,但我觉得应该会有更好的办法。

所以,下面就隆重介绍红/蓝差分火焰图(red/blue differential flame graphs):

undefined

上面是一副交互式SVG格式图片(链接)。图中使用了两种颜色来表示状态,红色表示增长,蓝色表示衰减。

这张火焰图中各火焰的形状和大小都是和第二次抓取的profile文件对应的CPU火焰图是相同的。(其中,y轴表示栈的深度,x轴表示样本的总数,栈帧的宽度表示了profile文件中该函数出现的比例,最顶层表示正在运行的函数,再往下就是调用它的栈)

在下面这个案例展示了,在系统升级后,一个工作载荷的CPU使用率上升了。 下面是对应的CPU火焰图(SVG格式

undefined

通常,在标准的火焰图中栈帧和栈塔的颜色是随机选择的。 而在红/蓝差分火焰图中,使用不同的颜色来表示两个profile文件中的差异部分。

在第二个profile中deflate_slow()函数以及它后续调用的函数运行的次数要比前一次更多,所以在上图中这个栈帧被标为了红色。可以看出问题的原因是ZFS的压缩功能被启用了,而在系统升级前这项功能是关闭的。

这个例子过于简单,我甚至可以不用差分火焰图也能分析出来。但想象一下,如果是在分析一个微小的性能下降,比如说小于5%,而且代码也更加复杂的时候,问题就为那么好处理了。

红/蓝差分火焰图

这个事情我已经讨论了好几年了,最终我自己编写了一个我个人认为有价值的实现。它的工作原理是这样的:

  1. 抓取修改前的堆栈profile1文件
  2. 抓取修改后的堆栈profile2文件
  3. 使用profile2来生成火焰图。(这样栈帧的宽度就是以profile2文件为基准的)
  4. 使用“2 - 1”的差异来对火焰图重新上色。上色的原则是,如果栈帧在profile2中出现出现的次数更多,则标为红色,否则标为蓝色。色彩是根据修改前后的差异来填充的。

这样做的目的是,同时使用了修改前后的profile文件进行对比,在进行功能验证测试或者评估代码修改对性能的影响时,会非常有用。新的火焰图是基于修改后的profile文件生成(所以栈帧的宽度仍然显示了当前的CPU消耗),通过颜色的对比,就可以了解到系统性能差异的原因。

只有对性能产生直接影响的函数才会标注颜色(比如说,正在运行的函数),它所调用的子函数不会重复标注。

生成红/蓝差分火焰图

我已经把一个简单的代码实现推送到github上(见火焰图),其中新增了一个程序脚本,difffolded.pl。为了展示工具是如何工作的,用Linux perf_events 来演示一下操作步骤。(你也可以使用其他profiler)

抓取修改前的profile 1文件:


  1. # perf record -F 99 -a -g -- sleep 30
  2. # perf script > out.stacks1

一段时间后 (或者程序代码修改后), 抓取profile 2文件:


  1. # perf record -F 99 -a -g -- sleep 30
  2. # perf script > out.stacks2

现在将 profile 文件进行折叠(fold), 再生成差分火焰图:


  1. $ git clone --depth 1 http://github.com/brendangregg/FlameGraph
  2. $ cd FlameGraph
  3. $ ./stackcollapse-perf.pl ../out.stacks1 > out.folded1
  4. $ ./stackcollapse-perf.pl ../out.stacks2 > out.folded2
  5. $ ./difffolded.pl out.folded1 out.folded2 | ./flamegraph.pl > diff2.svg

difffolded.p只能对“折叠”过的堆栈profile文件进行操作,折叠操作是由前面的stackcollapse系列脚本完成的。(见链接火焰图)。 脚本共输出3列数据,其中一列代表折叠的调用栈,另两列为修改前后profile文件的统计数据。


  1. func_a;func_b;func_c 31 33
  2. [...]

在上面的例子中"funca()->funcb()->func_c()" 代表调用栈,这个调用栈在profile1文件中共出现了31次,在profile2文件中共出现了33次。然后,使用flamegraph.pl脚本处理这3列数据,会自动生成一张红/蓝差分火焰图。

其他选项

再介绍一些有用的选项:

difffolded.pl -n:这个选项会把两个profile文件中的数据规范化,使其能相互匹配上。如果你不这样做,抓取到所有栈的统计值肯定会不相同,因为抓取的时间和CPU负载都不同。这样的话,看上去要么就是一片红(负载增加),要么就是一片蓝(负载下降)。-n选项对第一个profile文件进行了平衡,这样你就可以得到完整红/蓝图谱。

difffolded.pl -x: 这个选项会把16进制的地址删掉。 profiler时常会无法将地址转换为符号,这样的话栈里就会有16进制地址。如果这个地址在两个profile文件中不同,这两个栈就会认为是不同的栈,而实际上它们是相同的。遇到这样的问题就用-x选项搞定。

flamegraph.pl --negate: 用于颠倒红/蓝配色。 在下面的章节中,会用到这个功能。

不足之处

虽然我的红/蓝差分火焰图很有用,但实际上还是有一个问题:如果一个代码执行路径完全消失了,那么在火焰图中就找不到地方来标注蓝色。你只能看到当前的CPU使用情况,而不知道为什么会变成这样。

一个办法是,将对比顺序颠倒,画一个相反的差分火焰图。例如:

undefined

上面的火焰图是以修改前的profile文件为基准,颜色表达了将要发生的情况。右边使用蓝色高亮显示的部分,从中可以看出修改后CPU Idle消耗的CPU时间会变少。(其实,我通常会把cpuidle给过滤掉,使用命令行grep -v cpuidle)

图中把消失的代码也突显了出来(或者应该是说,没有突显),因为修改前并没有使能压缩功能,所以它没有出现在修改前的profile文件了,也就没有了被表为红色的部分。

下面是对应的命令行:


  1. $ ./difffolded.pl out.folded2 out.folded1 | ./flamegraph.pl --negate > diff1.svg

这样,把前面生成diff2.svg一并使用,我们就能得到:

  • diff1.svg: 宽度是以修改前profile文件为基准,颜色表明将要发生的情况
  • diff2.svg: 宽度是以修改后profile文件为基准,颜色表明已经发生的情况

如果是在做功能验证测试,我会同时生成这两张图。

CPI 火焰图

这些脚本开始是被使用在CPI火焰图的分析上。与比较修改前后的profile文件不同,在分析CPI火焰图时,可以分析CPU工作周期与停顿周期的差异变化,这样可以凸显出CPU的工作状态来。

其他的差分火焰图

也有其他人做过类似的工作。Robert Mustacchi在不久前也做了一些尝试,他使用的方法类似于代码检视时的标色风格:只显示了差异的部分,红色表示新增(上升)的代码路径,蓝色表示删除(下降)的代码路径。一个关键的差别是栈帧的宽度只体现了差异的样本数。右边是一个例子。这个是个很好的主意,但在实际使用中会感觉有点奇怪,因为缺失了完整profile文件的上下文作为背景,这张图显得有些难以理解。

Cor-Paul Bezemer也制作了一种差分显示方法flamegraphdiff,他同时将3张火焰图放在同一张图中,修改前后的标准火焰图各一张,下面再补充了一张差分火焰图,但栈帧宽度也是差异的样本数。 上图是一个例子。在差分图中将鼠标移到栈帧上,3张图中同一栈帧都会被高亮显示。这种方法中补充了两张标准的火焰图,因此解决了上下文的问题。

我们3人的差分火焰图,都各有所长。三者可以结合起来使用:Cor-Paul方法中上方的两张图,可以用我的diff1.svg 和 diff2.svg。下方的火焰图可以用Robert的方式。为保持一致性,下方的火焰图可以用我的着色方式:蓝->白->红。

火焰图正在广泛传播中,现在很多公司都在使用它。如果大家知道有其他的实现差分火焰图的方式,我也不会感到惊讶。(请在评论中告诉我)

结论

如果你遇到了性能回退问题,红/蓝差分火焰图是找到根因的最快方式。这种方式抓取了两张普通的火焰图,然后进行对比,并对差异部分进行标色:红色表示上升,蓝色表示下降。 差分火焰图是以当前(“修改后”)的profile文件作为基准,形状和大小都保持不变。因此你通过色彩的差异就能够很直观的找到差异部分,且可以看出为什么会有这样的差异。

差分火焰图可以应用到项目的每日构建中,这样性能回退的问题就可以及时地被发现和修正。

原文发布时间:2015-01-14

本文来自云栖合作伙伴“linux中国”

时间: 2024-10-27 21:16:54

使用火焰图分析CPU性能回退问题的相关文章

如何使用火焰图来分析服务器负载

LucidChart 提供在线编辑流程图.网络拓扑图.ER 图. UML 图以及脑图等多种图表服务,有超过 7 百万的用户,因其简单直观的交互体验和强大的多人协作功能,是可以替代 Visio 的最佳选择. 在 Lucid,我们使用面向服务的架构来建设我们的系统.其中字体服务(font service)就是其中之一,它负责根据字体族名称和 unicode 编码范围来提供相应的字体服务,同时也对用户上传的字体进行校验和检查.在生产环境中,该服务的负载一直很高,这一点超出我们的预期(使用或等待 CPU

用Prime95测试cpu性能稳定性的方法

  用Prime95测试cpu性能稳定性的方法.不少网友都遇到过这样的问题,那就是使用电脑观看视频的时候,电脑会突然死机.蓝屏甚至关机重启.这可能与电脑CPU性能不稳定有关系.那么,怎么查看CPU性能是否稳定呢?我们推荐使用的软件是:Prime95.下面,一起来看看具体的查看方法! CPU测试软件使用方法: 一.这里要用到的测试 CPU 稳定的软件名称叫住"Prime95",这是一款免费绝色软件,可以通过百度搜索下载,解压到电脑中直接运行即可.解压以后,进入软件目录,直接运行"

RDS for MySQL CPU 性能问题浅析

RDS for MySQL CPU 性能问题浅析 1. 原因 1.1 应用负载高 1.2 查询执行成本高 2. 解决方法2.1 相关工具 2.2 应用负载高 2.3 查询语句执行成本高 3. 避免出现的一般原则 RDS for MySQL 实例在日常使用中,会碰到 CPU 使用率达到 100% 的情况.比如: 1. 原因 根本原因:应用提交的查询访问的 逻辑读(逻辑 IO) 总量 (需要访问的 表 数据) 过高. 大量逻辑读会导致数据缓存 Buffer Pool 中用于维护数据一致性的 Latc

MySQL使用profile分析语句性能消耗

MySQL使用profile分析语句性能消耗 --查看profile是否开启mysql> show variables like '%profil%';+------------------------+-------+| Variable_name          | Value |+------------------------+-------+| profiling              | OFF   |         --开启SQL语句剖析功能                

Sql Server CPU 性能排查及优化的相关 Sql

Sql Server CPU 性能排查及优化的相关 Sql 语句,非常好的SQL语句,记录于此: --Begin Cpu 分析优化的相关 Sql --使用DMV来分析SQL Server启动以来累计使用CPU资源最多的语句.例如下面的语句就可以列出前50名.select c.last_execution_time,c.execution_count,c.total_logical_reads,c.total_logical_writes,c.total_elapsed_time,c.last_e

SQL Server 2008 CPU性能监控

CPU性能诊断 CPU架构 目前的主流企业服务器基 本可以分为三类:SMP(Symmetric Multi Processing,对称多处理架构),NUMA(Non-Uniform Memory  Access,非一致存储访问架构)和MPP(Massive Parallel Processing,海量并行处理架构) SMP(Symmetric Multi Processing) SMP是非常常见的一种架构.在SMP模式下,多个处理器均对称的连接在系统内存上,所有处理器都以平等的代价访问系统内存.

电脑CPU性能怎么看

  一.处理器CPU知识 ①CPU的分类 CPU品牌有两大阵营,分别是Intel(英特尔)和AMD,这两个行业老大几乎垄断了CPU市场,大家拆开电脑看看,无非也是Intel和AMD的品牌(当然不排除极极少山寨的CPU).而Intel的CPU又分为Pentium(奔腾) .Celeron(赛扬)和Core(酷睿).其性能由高到低也就是Core>Pentium>Celeron.AMD 的CPU分为Semporn(闪龙)和Athlon(速龙),性能当然是Athlon优于Semporn的了. Inte

国产x86 CPU性能达Intel的80%?

日前,<让缺"芯"少"魂"成为过去式>一文引起了舆论的广泛关注.特别是文章中采访了核高基专项总师,以及披露的关于国产x86通用处理器的内容引起了网友广泛关注--国产x86通用处理器的成功自主研发和量产,令国产桌面处理器在性能方面完成了一次跨越式的提升,从"十二五"初期的不足国际整体水准的7%提升到了目前的50%,综合性能体验达到80%. 目前,兆芯处理器芯片已在联想.长城.同方.曙光等主流整机厂商的产品中得到应用. 对此,一些媒体纷纷

小米跑分不仅仅是配置,跑的是CPU性能+GPU性能等综合性能

小米跑分不仅仅是配置,而是 CPU性能+GPU性能+内存及ROM存取效率+WIFI及2G/3G上网效率+整体系统优化的综合性能,其中系统优化是非常关键的!   作为一款国产手机,小米2不管是在性能上还是系统上都是智能手机界里的佼佼者,同时它的出现更是在国内掀起了一股小米发烧友的浪潮,成为由用户最强口碑铸就的国产智能手机.对于发烧友来说,他们毋庸置疑都在使用小米手机,但对于其他用户来说,小米是逐渐超越iphone的身影.随着小米1.1S的过去式,小米2开始进军智能手机市场,对于M2来讲小米跑分不仅