《Effective Debugging:软件和系统调试的66个有效方法》一第5条:在能够正常运作的系统与发生故障的系统之间寻找差别

第5条:在能够正常运作的系统与发生故障的系统之间寻找差别

我们通常都能够同时访问这样两个系统,其中一个是发生故障的系统,另一个是与之相似但却可以正常运行的系统。当我们实现了某项新功能、更新了某些工具或基础组件,或是把系统部署在某个新的平台上面时,就可能会遇到新系统无法正常运行的问题,此时如果旧系统依然正常,那么我们通常可以通过寻找(下面就会讲到如何寻找)或尽量缩小(参见第45条)新旧两个系统之间的差别来锁定问题的原因。
之所以能根据新旧系统间的差距来进行调试,其原因在于:尽管各人所经历的问题有所不同,但计算机的底层运作方式却是十分确定的,也就是说,同样的输入会产生同样的输出。因此,只要能够深入故障系统中,并对其进行足够的探查,我们就迟早能够找到相关的bug,从而揭示出该系统为什么会在行为上与正常系统有所不同。
其实有很多时候,系统的故障原因都会非常明确地出现在你面前,只要你肯打开程序的日志文件(参见第56条),就有可能发现里面有一条消息告诉你,clients.conf这个配置文件有错误:

在另外一些情况下,错误的原因可能会隐藏得比较深,此时你必须提升系统日志的详细程度(verbosity),才能把它暴露出来。
如果系统没有提供足够详细的日志机制,那我们就需要用追踪工具来梳理其运行时的行为。除了DTrace和SystemTap等通用的工具,还有一些专门的工具可以用来追踪对操作系统的调用(strace、truss、Procmon)、对动态链接库的调用(ltrace、Procmon)、网络包(tcpdump、Wireshark)以及SQL数据库调用(参见第58条)。有很多Unix应用程序(如R Project)是借助复杂的shell脚本来启动的,因此可能会以极其隐晦的方式出错。针对这样的错误,在大多数情况下,我们都可以通过给相应shell传入-x选项的办法来进行追踪,这样得到的数据通常很庞大,所幸现在的系统都有很大的容量能够存放这两份日志(以其中一份表示那个可以正常运作的系统,另一份表示出现了故障的系统),而且都有很强的CPU能够对其进行处理与比较。
就系统的操作环境而言,我们应该尽量确保这两个系统拥有相似的环境,因为这样能够更加方便地对比日志文件或追踪信息,有时甚至可以直接找到造成bug的原因。我们可以先从一些较为明显的部分入手,例如,程序的输入以及命令行参数等。与早前所说的原则一样,我们也要亲自进行验证,而不能想当然地接受假设。例如,应该在两个系统的输入文件之间进行对比,如果它们都比较庞大并且离得比较远,那可以考虑对比它们的MD5校验和。
然后,我们应该把重点放在代码上。首先对源代码进行对比,我们可能要挖得深一些才能找到bug所在的地方。可以通过ldd命令(适用于Unix系统)或是带有/dependents选项的dumpbin命令(适用于Visual Studio)来查看与每个可执行文件有关的动态程序库,并通过nm命令(适用于Unix系统)、带有/exports/imports选项的dumpbin命令(适用于Visual Studio)或javap命令(适用于以Java语言开发出来的程序)来查看程序所定义和使用的符号。如果你确信问题肯定出现在代码中,但又看不出明显的差别,那么可能就要往更深的层次去探查了,也就是需要对比由编译器所生成的汇编代码(参见第37条)。
然而在进行更深层次的探查之前,应该先考虑一下有没有其他因素会影响程序的执行情况,环境变量就是这样一个容易忽视的因素,即便是没有特权的用户,也依然可以通过设置环境变量来破坏程序的正常执行。另一个因素是操作系统。与运行着正常程序的那个操作系统相比,故障程序所在的这个操作系统,可能新了10年或是旧了10年。此外,也要考虑编译器、开发框架、第三方链接库、浏览器、应用程序服务器、数据库系统以及其他一些中间件。至于怎样在这么多的因素中确定问题的根源,则是我们接下来要讲的话题。
大多数情况下,我们都是在一堆干草里面找一根针(大海捞针),因此应该尽量使这堆干草变得小一些,于是,就要花时间来构造一个既能体现bug,又最为简单的测试用例(参见第10条)。(另外一种办法是把要找的针变大一些,也就是命令这个有bug的程序输出更多的信息,然而这种做法很少能起到比较好的效果。)简明的测试用例可以缩短日志文件与追踪信息的长度并减少处理时间,从而令调试工作变得更加轻松。要想有条理地简化测试用例,我们可以在确保能够重现bug的前提下,逐渐删除用例中的元素或系统中的配置选项,直到删至最简。
如果正常系统和故障系统的区别位于源代码中,那么有一种很实用的办法,就是对这两个版本之间的历次修改进行二分搜索(binary search),以确定问题所在。例如,如果正常系统的版本号是100,而故障系统的版本号是132,那我们首先测试116版的程序是否正常,如果116版正常,那就判断它与132版之间的中点,也就是124版是否正常,如果116版有错,则判断它与100版之间的中点,也就是108版是否正常,并依此类推。每次修改完程序之后,我们都应该把代码单独提交到版本控制系统里面,这样做的好处之一,就是使得我们能够进行二分搜索。某些版本控制系统提供了可以自动执行搜索的命令,例如,Git就提供了git bisect命令(参见第26条)。
还有一个很有效的办法,是用Unix工具对比两份日志文件(参见第56条),以找出其中与bug有关的区别。我们在这种情况下所使用的工具,是diff命令,它可以显示出两份文件的不同之处。然而日志文件经常会在无关紧要的地方表现出差别,这会把那些与bug真正有关的差别给掩盖掉,于是,我们可以考虑用各种办法来过滤干扰因素。例如,如果每一行开头的几个字段,都是时间戳与进程ID等信息,那我们就可以用cut或awk命令来把这些大同小异的信息裁掉。下面这条命令可以对Unix系统的messages日志文件进行裁切,它会从每一行的第4个字段开始显示其内容:

只把你感兴趣的那些事件选出来就可以了,例如,如果你只对打开的文件感兴趣,那么可以用grep'open('这样的命令来进行筛选。你也可以用grep-v gettimeofday等命令来把对自己有干扰的文本行过滤掉(例如,在Java程序里面,会有成千上万次与获取系统时间有关的调用)。此外,还可以在sed命令中指定适当的正则表达式,以便把文本行中自己不感兴趣的那一部分裁掉。
最后再讲一个高级的实用技巧:如果两份文件各自的排序方式无法使diff命令给出有效的对比结果,那我们可以把感兴趣的字段提取出来,对其进行排序,然后用comm工具在排好顺序的两个集合中找寻不同的元素。例如,如果我们想对比t1和t2这两份追踪信息,以找出有哪些文件只出现于t1中,那么可以在Unix的Bash shell中输入下列命令,它会在包含字符串open(的那些文本行里面提取表示文件名的第二个字段,并在提取出来的这两个集合之间寻找差别:

两对小括号里面的那两个元素,会分别生成两份有序列表,列表中的每一项都是一个传给open的文件名,而comm命令(这个命令用来在两份列表之间寻找共同的元素)则以这两份列表为输入值,并把只出现在第一份列表中的内容列出来。
要点
在能够正常运作的系统与出现故障的系统之间对比,找出行为上的区别,以求发现故障的原因。
影响系统行为的所有因素都要考虑到,包括代码、输入、调用时的参数、环境变量、服务以及动态链接库。

时间: 2024-07-31 03:07:02

《Effective Debugging:软件和系统调试的66个有效方法》一第5条:在能够正常运作的系统与发生故障的系统之间寻找差别的相关文章

《Effective Debugging:软件和系统调试的66个有效方法》——第5条:在能够正常运作的系统与发生故障的系统之间寻找差别

第5条:在能够正常运作的系统与发生故障的系统之间寻找差别 我们通常都能够同时访问这样两个系统,其中一个是发生故障的系统,另一个是与之相似但却可以正常运行的系统.当我们实现了某项新功能.更新了某些工具或基础组件,或是把系统部署在某个新的平台上面时,就可能会遇到新系统无法正常运行的问题,此时如果旧系统依然正常,那么我们通常可以通过寻找(下面就会讲到如何寻找)或尽量缩小(参见第45条)新旧两个系统之间的差别来锁定问题的原因. 之所以能根据新旧系统间的差距来进行调试,其原因在于:尽管各人所经历的问题有所

《Effective Debugging:软件和系统调试的66个有效方法》——第10条:高效地重现程序中的问题

第10条:高效地重现程序中的问题 要想高效地调试程序问题,一个关键的因素就是要能够可靠且方便地重现它.这么说有三个理由.首先,如果我们总是能做到只按一个按钮就可以重现问题,那么自然能够专心地去寻找问题的原因,而不用再浪费时间去研究怎样才能把这个问题重现一遍.第二,如果我们可以方便地重现问题,那么也就能够同样方便地把问题描述出来,以寻求外人的帮助(参见第2条).第三,修复错误之后,我们可以把重现问题所需的步骤执行一遍,如果程序这次没有出现故障,那就证明我们对其所做的修复是正确的. 创建短小的范例或

《Effective Debugging:软件和系统调试的66个有效方法》——第11条:修改完代码之后,要能够尽快看到结果

第11条:修改完代码之后,要能够尽快看到结果 调试通常是一种循序渐进的过程.在每一轮中,我们都要花时间去构建并运行软件,而且要看着它发生故障,这些环节会占用很多时间,而且这些时间并没有用来解决软件中的问题.因此,我们要提前进行准备,设法缩短每一轮调试所花费的时间. 首先从软件的构建入手.我们应该能通过一条命令(如make或mvn compile)或一个按键(如F5)把发生故障的软件迅速构建出来.构建过程应该能够记录文件之间的依赖关系,使得我们在修改了某处代码之后只有少数几个文件需要重新编译.能够

《Effective Debugging:软件和系统调试的66个有效方法》——第7条:试着用多种工具构建软件,并将其放在不同的环境下执行

第7条:试着用多种工具构建软件,并将其放在不同的环境下执行 有时我们可以通过改变环境来锁定一些难以捕获的bug.例如,我们可以用另外一款编译器来构建这个软件,也可以切换到其他的运行时解释器.虚拟机.中间件.操作系统或CPU架构上.由于那些环境可能会更加严格地检查输入数据,或能通过其结构来凸现程序中的错误(参见第17条),因此可以帮助我们发现原来很难找到的一些bug.如果程序不够稳定.总是发生无法重现的崩溃问题,或移植起来不太顺利,那就应该试着把它放在另外一种环境下进行测试,这使得我们能够使用更为

《Effective Debugging:软件和系统调试的66个有效方法》——第8条:把工作焦点放在最为重要的问题上

第8条:把工作焦点放在最为重要的问题上 许多大型软件系统都含有数量极其众多的bug(有一些是已知的bug,还有一些则尚未发现).要想高效地进行调试,就必须把应该受到关注的bug与可以忽略的bug明智地区分开.这样做不是为了单纯地缩减事务清单中的未决事务,而是为了帮助我们开发出稳定.易用.可维护而且效率较高的软件,毕竟这才是公司给我们支付薪水的原因.为此,我们要通过事务追踪系统来设定各项事务的优先级(参见第1条),从而使自己能够把工作重心汇聚在优先级较高的那些事务上,并把优先级较低的事务忽略掉.下

《Effective Debugging:软件和系统调试的66个有效方法》——第15条:查看第三方组件的源代码,以了解其用法

第15条:查看第三方组件的源代码,以了解其用法 我们所要调试的代码之所以会出bug,通常并不是由于它使用的第三方程序库或应用程序本身有问题(参见第14条),而是因为它使用这些第三方组件时所采取的方式有误. 这种情况并不令人惊讶,由于这些软件本身是作为黑盒来与你所写的代码进行集成的,因此,你不太可能在它们之间相互协调.对于这类问题来说,有一个很有用的办法,就是去查看第三方程序库.中间件甚至是底层软件的源代码. 首先,如果想查明某个API为什么没有像你所期望的那样运作,或是想查明某条奇怪的错误消息是

《Effective Debugging:软件和系统调试的66个有效方法》——第6条:使用软件自身的调试机制

第6条:使用软件自身的调试机制 程序是一种很复杂的东西,因此它们通常都包含内置的调试机制.(至于怎样给自己正在开发的软件里面添加这样的机制,请参见第40条.)这种机制有很多好处,其中包括: 我们可以通过禁用后台执行或多线程执行等特性来简化程序的调试工作. 我们可以有选择地执行其中某一部分功能,以便通过测试用例来精确地再现相关的故障. 程序可以给我们提供与性能有关的报表及其他信息. 程序可以把更多的信息记录在日志文件中. 因此,我们应该花一些时间,看看自己要调试的这款软件内置了哪些调试机制.想要了

《Effective Debugging:软件和系统调试的66个有效方法》——第17条:使故障更加突出

第17条:使故障更加突出 使故障显得更加突出一些,可以提升调试工作的效率.为了突出软件的故障,我们可以对软件本身,或是对其输入数据所在的环境进行修改.无论怎样修改,都必须在版本控制系统中进行,而且要在单独的分支上面修改,这样,以后可以轻易地恢复到原来的版本,并且不会在产品代码中引入错误. 有时无论怎么调试,软件都无法像我们期望的那样运作.例如,尽管某一组复杂的条件显然可以得到满足,但数据库里面就是没有出现我们想看到的那条记录.在这种情况下,有一个比较好的办法,是大幅度地改变软件的执行路径,并看其

《Effective Debugging:软件和系统调试的66个有效方法》——第19条:使调试任务自动化

第19条:使调试任务自动化 我们或许会找到很多个与程序错误有关的因素,但是却没有办法轻易推断出究竟哪一个因素才是致使程序出错的真正原因.为了把这个原因找出来,我们可以编写一小段例程或脚本,把有可能使程序出错的所有情况全都搜索一遍.如果待搜索的情况比较多,不便于手工进行搜索,但是却能够通过循环来进行遍历,那么就可以考虑对其加以自动化.例如,如果想遍历的是500个字符,那么可以通过自动化的脚本来实现,然而如果要把用户可能会输入的所有字符串全都尝试一遍,那么采用自动化脚本就不太合适了. 下面举一个例子

《Effective Debugging:软件和系统调试的66个有效方法》——第16条:使用专门的监测及测试设备

第16条:使用专门的监测及测试设备 调试嵌入式系统及系统软件的时候,我们可能要对从硬件到应用程序的整个计算栈进行分析.调试工作一旦深入硬件层面,我们就需要关注电流的微小变化以及磁矩的对齐情况等细节.在大多数情况下,可以通过强大的IDE以及一些追踪软件与日志记录软件来探查这些问题,然而有的时候,就连这些工具也帮不上忙.这通常发生在软件与硬件有所接触的场合,也就是说,虽然你认为你所写的软件能够像预期的那样运作,但是硬件却有着它自己的处理方式.例如,你把正确的数据写入磁盘,再将其读取出来,却发现这些数