1.1 故障检测与排除原理
CCNP TSHOOT 300-135学习指南
故障检测与排除是一种诊断故障并解决故障(如果可能的话)的过程,故障检测与排除操作通常是由用户报告故障所触发的。对于部署了主动式网络监控工具和技术的现代复杂网络来说,完全可以在用户发现故障或者商业应用受到影响之前就发现故障/问题,甚至修正或解决故障/问题。
某些人直到发现问题并认为是故障且被报告为故障时才知道网络中出现了故障,这就意味着需要找出所报告故障(受限于用户的经验)与实际故障原因之间的差别。报告故障的时间不一定就是产生故障的事件发生时间,报告故障的用户有时会将故障等同于故障现象,而排障人员常常将故障等同于故障根源。例如,某小型企业的Internet连接在周六出现了故障,这通常并不是一个故障,但是如果Internet连接在周一上午上班时间仍未修复,那么就会演变为故障。虽然故障现象与故障原因之间的差异看起来似乎有些难以理解,但大家必须意识到两者的差异会产生潜在的沟通问题。
通常来说,故障报告会触发故障检测与排除流程。检测与排除故障时,首先要定义故障问题,其次在收集信息、重新定义故障、提出可能的故障原因期间诊断故障,最后就是推断故障的根本性原因。此时就可以提出可能的故障解决方案并加以评估,然后选出最佳解决方案并加以实施。图1-1给出了结构化故障检测与排除方法的主要步骤以及这些步骤之间存在的各种转移可能性。
注:
值得注意的是,有时不一定能够实施网络故障解决方案,此时可能需要搭建一个临时工作环境。解决方案与临时工作环境之间的区别就在于解决方案能够解决故障根源,而临时工作环境只是缓解了故障现象。
虽然报告故障和解决故障是故障检测与排除流程中的基本要素,但大部分时间都花在了故障诊断阶段,甚至有些人认为故障检测与排除过程就是故障诊断过程。但无论如何,在网络维护的概念中,报告故障和解决故障确实是故障检测与排除流程中的基本要素,而故障诊断则是发现故障本质以及故障原因的进程,该进程的主要步骤如下。
收集信息:在接到用户(或其他任何人)报告的故障信息之后,就要开始收集信息,包括调研故障所涉及的所有人员(用户)以及采用各种可能的手段收集相关信息。通常来说,故障报告包含的信息都不足以让排障人员做出合理推断,因而所要做的第一件事情就是收集信息。既可以通过观测直接收集信息,也可以通过测试间接收集信息。
分析信息:检查和分析完收集到的信息之后,排障人员就可以将故障现象与自己掌握的系统、进程和基线数据的信息进行分析比对,以便将正常状态从异常状态中分离出来。
排除潜在故障原因:通过将观察到的网络运行状态与期望状态进行对比,就可以排除某些潜在的故障原因。
提出推断:收集和分析信息并排除了潜在故障原因之后,将会剩下一个或若干个潜在故障原因。需要仔细评估每个潜在故障原因的可能性,并推断最可能的故障原因。
验证推断:需要进一步测试推断出的根本性故障原因,以证实或否决该原因是否是故障根源。最简单的方式就是根据故障推断制定解决方案,并验证该解决方案是否有效。如果无效,那么就表明前面的推断有误,就需要进一步收集并分析更多信息。
所有的故障检测与排除方法都包括收集信息、分析信息、排除潜在故障原因、提出推断、验证推断等几个基本步骤,每个步骤都有其用意,需要花费一定的时间和精力,弄清楚如何以及何时从一个步骤过渡到下一个步骤是成功进行故障检测与排除工作的关键。在检测与排除复杂应用场景下的网络故障时,有时可能需要在故障检测与排除的不同阶段之间不断地进行反复操作:收集信息、分析信息、排除潜在故障原因、收集更多信息、再次分析这些信息、提出推断、验证推断、否决推断、排除更多潜在故障原因、收集更多信息,等等。
如果没有采取结构化故障检测与排除方法,而只是凭直觉在这些步骤之间来回反复,虽然最终也可能找出解决方案,但效率肯定很低。而且这种凭直觉的故障检测与排除方法还有一个非常明显的缺点,那就是很难将排障工作转交给其他人,已经实施过的排障结果都会丢失,甚至过了一段时间(可能因为有其他事情)之后,该排障人员再次检测与排除该故障时都有可能无法继续下去。无论采用哪种结构化故障检测与排除方法,从长期的角度来看都能取得预期成果,而且无论是自己过了一段时间之后再次进行排障还是将排障工作转交给他人也都会很容易,而且还能保留前期工作成果。
经验不足和经验丰富的排障人员通常都喜欢采用不假思索法,因为该方法在经过非常短的收集信息阶段之后,排障人员就能快速得出解决方案并验证是否能解决该故障。虽然该方法从表面上看似乎随机性很大,但实际并非如此,这是因为该方法建立在大量常规故障现象及相应故障原因的经验知识之上,只是将相关经验扩展到特定网络环境或特定应用上。因而这种方法对于经验丰富的排障人员来说是事半功倍,但是对缺乏经验的排障人员来说却是事倍功半。图1-2显示了利用不假思索法解决故障的流程,该方法几乎没有在收集信息和排除潜在故障原因阶段花费任何时间。
如果用户报告了某个LAN性能故障,考虑到过去报告的故障案例中有90%都拥有相似的故障现象,故障原因是用户工作站(PC或笔记本电脑)与接入交换机端口之间的双工模式不匹配。解决方案是将交换机端口配置为100Mbit/s全双工模式。因而收到该故障报告之后,完全有理由相信仍然是该原因,因而很自然地快速验证用户所连交换机的端口的双工模式设置情况,并将其设置为100Mbit/s全双工模式。如果奏效,那么该故障检测与排除方法的效率将非常高,因为所花费的时间很少。但不幸的是,该方法的缺点是如果解决方案无效,由于没有其他更正确的解决方案,因而会浪费排障人员和用户的时间,而且还可能会导致一定的挫败感。因此,有效使用该方法的关键在于知道何时该停止使用该方法并转移到其他更有效的(结构化)故障检测与排除方法上。