《CCNP TSHOOT 300-135学习指南》——1.1节故障检测与排除原理

1.1 故障检测与排除原理
CCNP TSHOOT 300-135学习指南
故障检测与排除是一种诊断故障并解决故障(如果可能的话)的过程,故障检测与排除操作通常是由用户报告故障所触发的。对于部署了主动式网络监控工具和技术的现代复杂网络来说,完全可以在用户发现故障或者商业应用受到影响之前就发现故障/问题,甚至修正或解决故障/问题。

某些人直到发现问题并认为是故障且被报告为故障时才知道网络中出现了故障,这就意味着需要找出所报告故障(受限于用户的经验)与实际故障原因之间的差别。报告故障的时间不一定就是产生故障的事件发生时间,报告故障的用户有时会将故障等同于故障现象,而排障人员常常将故障等同于故障根源。例如,某小型企业的Internet连接在周六出现了故障,这通常并不是一个故障,但是如果Internet连接在周一上午上班时间仍未修复,那么就会演变为故障。虽然故障现象与故障原因之间的差异看起来似乎有些难以理解,但大家必须意识到两者的差异会产生潜在的沟通问题。

通常来说,故障报告会触发故障检测与排除流程。检测与排除故障时,首先要定义故障问题,其次在收集信息、重新定义故障、提出可能的故障原因期间诊断故障,最后就是推断故障的根本性原因。此时就可以提出可能的故障解决方案并加以评估,然后选出最佳解决方案并加以实施。图1-1给出了结构化故障检测与排除方法的主要步骤以及这些步骤之间存在的各种转移可能性。

注:
值得注意的是,有时不一定能够实施网络故障解决方案,此时可能需要搭建一个临时工作环境。解决方案与临时工作环境之间的区别就在于解决方案能够解决故障根源,而临时工作环境只是缓解了故障现象。

虽然报告故障和解决故障是故障检测与排除流程中的基本要素,但大部分时间都花在了故障诊断阶段,甚至有些人认为故障检测与排除过程就是故障诊断过程。但无论如何,在网络维护的概念中,报告故障和解决故障确实是故障检测与排除流程中的基本要素,而故障诊断则是发现故障本质以及故障原因的进程,该进程的主要步骤如下。

收集信息:在接到用户(或其他任何人)报告的故障信息之后,就要开始收集信息,包括调研故障所涉及的所有人员(用户)以及采用各种可能的手段收集相关信息。通常来说,故障报告包含的信息都不足以让排障人员做出合理推断,因而所要做的第一件事情就是收集信息。既可以通过观测直接收集信息,也可以通过测试间接收集信息。
分析信息:检查和分析完收集到的信息之后,排障人员就可以将故障现象与自己掌握的系统、进程和基线数据的信息进行分析比对,以便将正常状态从异常状态中分离出来。
排除潜在故障原因:通过将观察到的网络运行状态与期望状态进行对比,就可以排除某些潜在的故障原因。
提出推断:收集和分析信息并排除了潜在故障原因之后,将会剩下一个或若干个潜在故障原因。需要仔细评估每个潜在故障原因的可能性,并推断最可能的故障原因。
验证推断:需要进一步测试推断出的根本性故障原因,以证实或否决该原因是否是故障根源。最简单的方式就是根据故障推断制定解决方案,并验证该解决方案是否有效。如果无效,那么就表明前面的推断有误,就需要进一步收集并分析更多信息。
所有的故障检测与排除方法都包括收集信息、分析信息、排除潜在故障原因、提出推断、验证推断等几个基本步骤,每个步骤都有其用意,需要花费一定的时间和精力,弄清楚如何以及何时从一个步骤过渡到下一个步骤是成功进行故障检测与排除工作的关键。在检测与排除复杂应用场景下的网络故障时,有时可能需要在故障检测与排除的不同阶段之间不断地进行反复操作:收集信息、分析信息、排除潜在故障原因、收集更多信息、再次分析这些信息、提出推断、验证推断、否决推断、排除更多潜在故障原因、收集更多信息,等等。

如果没有采取结构化故障检测与排除方法,而只是凭直觉在这些步骤之间来回反复,虽然最终也可能找出解决方案,但效率肯定很低。而且这种凭直觉的故障检测与排除方法还有一个非常明显的缺点,那就是很难将排障工作转交给其他人,已经实施过的排障结果都会丢失,甚至过了一段时间(可能因为有其他事情)之后,该排障人员再次检测与排除该故障时都有可能无法继续下去。无论采用哪种结构化故障检测与排除方法,从长期的角度来看都能取得预期成果,而且无论是自己过了一段时间之后再次进行排障还是将排障工作转交给他人也都会很容易,而且还能保留前期工作成果。

经验不足和经验丰富的排障人员通常都喜欢采用不假思索法,因为该方法在经过非常短的收集信息阶段之后,排障人员就能快速得出解决方案并验证是否能解决该故障。虽然该方法从表面上看似乎随机性很大,但实际并非如此,这是因为该方法建立在大量常规故障现象及相应故障原因的经验知识之上,只是将相关经验扩展到特定网络环境或特定应用上。因而这种方法对于经验丰富的排障人员来说是事半功倍,但是对缺乏经验的排障人员来说却是事倍功半。图1-2显示了利用不假思索法解决故障的流程,该方法几乎没有在收集信息和排除潜在故障原因阶段花费任何时间。

如果用户报告了某个LAN性能故障,考虑到过去报告的故障案例中有90%都拥有相似的故障现象,故障原因是用户工作站(PC或笔记本电脑)与接入交换机端口之间的双工模式不匹配。解决方案是将交换机端口配置为100Mbit/s全双工模式。因而收到该故障报告之后,完全有理由相信仍然是该原因,因而很自然地快速验证用户所连交换机的端口的双工模式设置情况,并将其设置为100Mbit/s全双工模式。如果奏效,那么该故障检测与排除方法的效率将非常高,因为所花费的时间很少。但不幸的是,该方法的缺点是如果解决方案无效,由于没有其他更正确的解决方案,因而会浪费排障人员和用户的时间,而且还可能会导致一定的挫败感。因此,有效使用该方法的关键在于知道何时该停止使用该方法并转移到其他更有效的(结构化)故障检测与排除方法上。

时间: 2024-10-31 05:09:23

《CCNP TSHOOT 300-135学习指南》——1.1节故障检测与排除原理的相关文章

《CCNP TSHOOT 300-135认证考试指南》——5.2节STP概述

5.2 STP概述CCNP TSHOOT 300-135认证考试指南OSI参考模型的二层网络可用性不但需要拓扑结构中的交换机之间拥有冗余链路,而且要求网络具备冗余路径,不过这样会带来所谓的二层环路问题(如图5-1所示).请注意SW1可以通过两条链路向SW2发送流量,反之亦然,因而SW1从某条链路发送给SW2的流量可以通过另一条链路返回SW1,并且无限循环.这是因为二层帧没有任何内嵌机制能够防止网络中出现的环路现象(如图5-1所示的环路1).此外,图5-1中的SW1.SW2和SW3之间还存在一个更

《CCNP TSHOOT 300-135认证考试指南》——5.10节定义关键术语

5.10 定义关键术语CCNP TSHOOT 300-135认证考试指南定义本章的如下术语,并使用配套光盘中的"术语表"检查你的答案: STP.根网桥.根端口.指派端口.非指派端口.阻塞.侦听.学习.转发.802.1D.802.1w.802.1s.二层EtherChannel.PagP.LACP

《CCNP TSHOOT 300-135认证考试指南》——5.4节STP故障检测与排除

5.4 STP故障检测与排除CCNP TSHOOT 300-135认证考试指南如果STP运行异常,那么网络中将会产生环路,使得二层数据帧在网络中无限循环,该操作行为将会导致MAC地址表错误以及广播风暴等故障问题.本节将详细讨论由STP故障引起的相关问题及后果. 5.4.1 交换机的MAC地址表错误第4章曾经说过,MAC地址表决定了交换机对帧的处理方式,因而MAC地址表必须做到准确无误.虽然交换机可以动态学习通过其端口可达的MAC地址情况,但是如果STP出现了故障,那么交换机的MAC地址表将会出现

《CCNP TSHOOT 300-135认证考试指南》——2.7节复习所有考试要点

2.7 复习所有考试要点 CCNP TSHOOT 300-135认证考试指南 请复习本章所有的考试要点,在页边距中我们已使用图标"考试要点"进行了标注.表2-5列出了这些考试要点.

《CCNP TSHOOT 300-135认证考试指南》——5.9节复习所有考试要点

5.9 复习所有考试要点 CCNP TSHOOT 300-135认证考试指南 请复习本章所有的考试要点,在页边距中我们已使用图标"考试要点"进行了标注.表5-5列出了这些考试要点.

《CCNP TSHOOT 300-135认证考试指南》——2.5节在传输过程中收集信息

2.5 在传输过程中收集信息 CCNP TSHOOT 300-135认证考试指南 故障检测与排除进程中收集的信息并不总是处于静止状态,有时还可能需要收集处于传输状态的信息,本节将讨论在网络中抓取流经交换机的数据包的方式. 2.5.1 执行抓包操作 可以利用运行了抓包软件的专用工具或PC来收集并存储流经网络链路的数据包.在执行故障检测与排除任务时,分析动态抓取的数据包能够深入了解网络处理数据流的方式.例如,抓包数据文件能够显示数据包是否被丢弃或者会话是否被重置,而且利用抓包应用软件还能查看二层.三

《CCNP TSHOOT 300-135认证考试指南》——2.2节故障检测与排除及网络维护工具箱

2.2 故障检测与排除及网络维护工具箱 CCNP TSHOOT 300-135认证考试指南 如前所述,故障检测与排除和网络维护是相辅相成的,两者关系非常密切,因此故障检测与排除工具与网络维护工具非常相似(如果不是完全相同的话). 第1章介绍了结构化故障检测与排除流程的实施步骤,除了修复故障以及可能的回退配置之外,这些步骤中很多都要用到常见工具,以帮助收集.检查和对比信息,下面将解释其中的4个步骤. 报告故障:利用专用报告工具主动监控网络设备,可以在用户受到故障影响并报告故障之前,就能发现即将出现

《CCNP TSHOOT 300-135认证考试指南》——2.8节定义关键术语

2.8 定义关键术语 CCNP TSHOOT 300-135认证考试指南 定义本章的如下术语,并使用配套光盘中的"术语表"检查你的答案: CLI.Wiki.TFTP.FTP.HTTP.归档.运行配置.合并.配置替换.syslog.NTP.SNMP.NetFlow.EEM.ping.Telnet.traceroute.Cisco TAC.SPAN.RSPAN.CDP

《CCNP TSHOOT 300-135认证考试指南》——6.2节单臂路由故障检测与排除

6.2 单臂路由故障检测与排除CCNP TSHOOT 300-135认证考试指南VLAN之间的流量传递需要用到路由机制,这是因为VLAN等同于子网,从一个子网向另一个子网发送流量时必须使用路由,因而从一个VLAN向另一个VLAN发送流量,也必须使用路由. 本节将回顾如何利用中继到交换机上的外部路由器来进行VLAN间的路由操作,并讨论导致该实现方式工作异常的各种故障问题. 出现三层交换机之前,需要依赖外部路由器来执行VLAN间路由.外部路由器通过中继连接二层交换机,从而产生单臂路由(router-