第9条:相信自己能够把问题调试好
软件通常是极其复杂的。机械表的移动机制,仅由100多个部件组成;而整个房屋中的各种器械,其部件总数也只是简单组件的几倍而已。这与典型的软件系统有很大区别,后者很容易就包含成千上万行复杂的代码。我们可以在这两个领域中各举一个较为精密的例子来做比较:A380客机有400万个物理组件,而Linux内核的代码行数则是900万。因此,我们必须在思想上做好充分的准备,才能应对如此复杂的软件。
首先,你要确信自己一定能够找到问题并将其修复。你的心理状态会对调试的结果造成影响,专家们把这叫做“感受到的挑战与自身技能之间的一场对抗”。如果你根本就不相信自己能够克服这个问题,那你的思维就会徘徊不前,甚至想要干脆放弃。在这种情况下,你解决不了实质的问题,而是会盲目地打补丁,以掩盖由该问题所引发的各种症状,这样做对代码是有害的。我们必须记住这一点。
如果问题是可以重现的,那么毫无疑问,你肯定能解决它(而且通常可以按照本书所给出的建议来解决)。如果问题不能重现,那么有一些办法可以令其变得能够重现。在调试的时候,有两个重要的“朋友”可以帮助我们:一个是对数据的访问权,它使我们能够访问到自己所需的全部数据;另一个是功能强大的计算机,它使我们能够对这些数据进行处理。我们可以检查程序发生问题时所表现出来的状况,以及程序的日志和程序的源代码,有时甚至可以检查机器指令,此外,我们也可以在软件栈的任意位置添加详细的日志语句(或者说至少添加一些监测探针)。然后,就可以用工具或较短的脚本来筛选这些数据,并从中找到问题的根源。这是一种综合能力,具备这种能力的人可以在较大的范围内及任意的深度上面进行搜索,从而完成调试工作,这个过程会给人一种独特的满足感。
为了能够高效地进行调试,你还必须留出充足的时间。调试是一项对人要求很高的工作,它比编程更为复杂,因为我们不仅要明白程序的逻辑,而且还要理解其背后的效果(这通常指的是较为底层的效果)。此外,我们还必须把环境、断点、日志记录、各种窗口以及测试用例设置好,以便能够高效地重现问题。不要在还没有解决bug的时候就停手,否则前面所花的时间就全都白费了,即便要停手,也应该在准确理解了接下来所应采取的措施之后再停止。
要想调试复杂的问题,就必须在没有干扰的状态下工作。人脑需要经过一段时间之后才能进入心流(flow)状态,在这种状态下,我们会完全沉浸于自己正在做的事情中。心流这个概念由Mihály Csíkszentmihályi提出,根据他的说法,人在处于心流状态时,能够把自身情绪与自己所做的事情相互契合起来,并通过一种成就感来提升自己做事的毅力与效果。我们在调试复杂的系统时会遇到巨大的困难,而心流状态所带来的好处对于解决这些困难会起到关键的作用。弹出的消息、打来的电话、反复的聊天、持续更新的社交网络,或是跑过来求助的同事,都会对自己造成干扰,从而破坏这种心流状态。一旦离开这种状态,就享受不到它所带来的好处了,因此,我们要尽量避免干扰,应该把用不到的应用程序关掉,把电话调到静音模式,可以在显示器上贴一个请勿打扰的标志(如果你有一间自己的办公室,那也可以把牌子挂到门上)。
还有个很有用的办法,就是在遇到难题的时候去睡一觉。研究者发现,人在睡觉的时候,其神经元之间会形成广泛的连接,这些连接会把看似不相关的路径贯通起来。这对于调试工作可以起到很大的帮助作用,它通常可以使我们找到一种打破思维定式的调试策略,从而跳出当前的困局。在看似不相关的路径之间所形成的这种新连接,是在睡眠的过程中搭建起来的,然而要想使这种机制有利于调试工作,我们还必须合理地运用它。也就是说,我们必须先努力地解决问题,使得必要的数据都存留在脑子里,然后才能在睡眠中找到创新的解法。刚一遇到困难就立刻喝一杯啤酒,然后跑去睡觉,是没有太大作用的。此外还要注意保持充足的睡眠,以便在第二天醒来之后,脑子里与意识有关的那一部分能够听取与潜意识有关的那一部分所给出的建议,从而令工作更有效率。
没有谁会认为调试是一件简单的事情,所以要想高效地调试,就必须有毅力。由于计算机在最底层具有确定性,因此我们最终可以通过深入挖掘把错误的原因隔离出来。在较高一些的层面上,为了提升表达能力与效能,它会引入一些不确定的因素,使得程序的某些行为看起来较为随机(可以思考一下多线程的应用程序是如何运作的)。面对这些与不确定因素有关的错误时,我们要把握住一点:计算机毕竟是一种运行速度很快的可编程机器,它可以运行数量极多的用例,因此,我们最后还是能够把错误原因找出来。由此可见,调试工作之所以会陷入僵局,基本上都是因为缺乏毅力,例如,我们可能没有去写某个测试用例,没有去查看某个日志文件,或是没有去尝试从另外一个角度来研究问题。
最后要注意的是:想成为一名高效的调试工程师,就必须持续地投入精力,去学习环境、工具及相关的知识。只有这样,你才能够在复杂度持续提升的技术工作中保持优势。现在看来,笔者当年在调试时最常犯的错误,就是没有花足够的功夫来把调试工作所需的基础设施搭建好。要想把基础设施搭建好,可能需要把下面四项全都做到:
把健壮的最小测试用例准备好(参见第10条)。
对bug的重现加以自动化。
用脚本来分析日志文件。
了解API或语言特性的实际运作方式。
当我振作起来把精力投入到应该做的事情上面之后,我的调试效率就会急剧提升。一旦进入这种状态,通常可以在几分钟之内查明bug的原因。
要点
确信问题是可以追查并解决的。
给调试工作留出足够的时间。
安排好工作环境,使自己不受干扰。
遇到难题的时候可以先去睡一觉。
不要彻底放弃。
投入精力去学习环境、工具及知识。