用事实讲解网络瘫痪事件的诊断与恢复

故障地点:上海某某百货局域网故障现象:严重通讯障碍,客户机之间ping包掉包严重,甚至POS机也不能正常通讯,用户很难完成付款操作。详细描述:整个网络间断性出现网络通讯中断,造成经常性的客户机应用延迟和上网缓慢。在主机房中进行ping包测试时发现,主机房客户机对主交换机的管理地址的ping包也会发生间隙性掉包。主机房客户机对各个楼面交换机通讯的通讯中断情况更加严重。初步经验性问题判断为:1)ARP表更新问题;2)广播故障;3)路由表更新故障;4)病毒攻击及其他安全状况。需要获取的进一步信息是:1) ARP表信息;2) 交换机负载;3) 通讯数据捕获。进行了简单的ARP测试,发现更新ARP正常; 由于交换机反应缓慢,操作超时,无法准确获得当前负载数据。选择主交换上一网络端口接入测试用笔记本,启动协议分析工具。接入端口没有做
镜像,接入后发现每秒钟接收到数据报文数量平均8000个,最高达到每秒14000个。按此推算,每台交换机背板每秒可能交换336000多个封包,这可能是造成交换机处理器被严重占用,造成间歇性丢包的直接原因。由于交换机端口没有做镜像,可以
认为当前的接收到的数据主要为广播通讯。利用协议分析工具捕获解码后,可以得到以下结果。主要的协议通讯都是广播通讯。包括ARP 广播、SMB广播和Name SVC广播。几乎所
有的封包大小都小于255字节。
所以尽管封包数量很大,
但是总体字节数不多,吞吐量较小,在一些只记录流量的软件系统中,不能准确发现这个问题的危害。从解码角度察看,可以看到一段时间内,主要为某一台主机的疯狂通讯。
往往一台主机的通讯在
瞬间占据当时总体通讯的50%以上。到此,问题原因曾经被导向到个别流量特别大的主机,怀疑其由于病毒/蠕虫的侵害而造成大流量的产生。但是在进一步分析的过程中,我们注意到了这些在通讯中有一个特点,
例如在NetBIOS 的Name SVC广播为UDP协议,UDP为IP之上封装的通讯,在IP包头包含了IP Identification信息(缩写IPID),一般每台主机在主动发送一个数据包时,会对IPID这个值进行递增。例如第一个包IPID为 10000,第二个发送包就可能是10001,第三是10002,依次类推,不同的主动发送的报文的IPID应当是不同的。但是在解码中可以发现在一段时间内,IPID是在大量简单重复。换言之,这些大量的广播报文,通常不应当是某台主机主动引起,而是被交换机发复转发造成。在此情况下,为了正式这一现象,我们作了一次试验,让某台主机以每三秒一次的频率发送请求到一个不存在的地址(为了引起ARP广播),但是每三秒一次的广播,在网络中捕获的结果是在一秒钟内形
成了7991次反复转发,造成了大量的网络流量。
经过这些过程,我们确认这一问题是由于交换机环路造成。通常交换网络中会打开Spanning Tree协议以保障不发生交换机环路的现象,如果不使用Spanning Tree Protocol (以下简称STP),当两台交换机发生同时被两条线缆互联时候,会形成环路,交换机无法自我侦测这一情况,其结果是把广播报反复转发。如果启用STP,各个交换机会发送优先度很高的BPDU数据封包,进行线路检测,当发现发送的BPDU包被不恰当的转发回来时候,交换机可以相互协商,关闭某一条环路路径。保障任意两个交换机中只有一条耦合链路。问题确认得到以后,我们试图解决。采用二分法,临时断开东楼和西楼的光纤链路。断开后发现故障立即消除,所有超时现象不再出现,流量平复正常。 以此可以判断,环路发生在西楼和东楼之间,或在老楼内部。恢复光纤链路之后,我们前往老楼进一步查访故障源。由于老楼交换机放置地点条件较差,经过整理和分析,到18:45分左右,在老楼发现故障源也已经消失。由于时间因素,进一步的定位工作没有继续,但是由于已经把问题缩小到老楼局部以及能够定位了故障类型本身,对之后的维护保障工作应当有比较好的帮助。结论在诊断该故障同时,还发现有一些网络扫描的现象,网内还伴随一些病毒和蠕虫的征兆,因此网络维护任重道远,仍然需要更多的努力和投入。

时间: 2024-10-05 12:59:53

用事实讲解网络瘫痪事件的诊断与恢复的相关文章

黑客私斗引发六省区网络瘫痪事件始末

很多网民对两个月前的一次网络大面积瘫痪事件记忆犹新:5月19日21时50分开始,江苏.安徽.广西.海南.甘肃.浙江六省区用户访问网站速度变慢或干脆断网.截至20日凌晨1时20分,受影响地区的互联网服务才基本恢复正常. 7月6日,这起受到全国普遍关注的"5·19"网络瘫痪案,其4名犯罪嫌疑人被江苏省常州市天宁区人民检察院以涉嫌破坏计算机信息系统罪批准逮捕. 日前,办案检察官在接受记者采访时道出这起案件的缘起:"5·19"六省区的网络瘫痪案,起因竟是几个网络私服经营者和

六省网络瘫痪事件犯罪嫌疑人被检方批捕

新华网南京7月15日电(记者叶超)受到全国普遍关注的"5·19"网络瘫痪案的4名犯罪嫌疑人近日被江苏省常州市天宁区检察院以涉嫌破坏计算机信息系统罪批准逮捕. 2009年5月19日21时50分始,江苏.安徽.广西.海南.甘肃.浙江六省(区)用户访问网站速度变慢或干脆断网.直到20日1时20分,受影响地区的互联网服务才基本恢复正常.21日,工业和信息化部正式发表通报,初步解释此次事故的原因:由于暴风影音(影音播放软件)网站的域名解析系统受到网络攻击,导致电信DNS服务器访问量突增,网络处理

5-19网络瘫痪事件4名犯罪嫌疑人落网

新华社北京6月2日电 (记者 张景勇)记者2日从公安部获悉,公安机关已侦破导致5月19日我国部分省份互联网瘫痪的网络攻击案件,并抓获4名犯罪嫌疑人. 5月19日,我国部分省份互联网出现严重网络故障,20多个省份互联网域名解析服务无法正常工作,导致大量网民无法正常访问网站.公安机关接报后,立即组织江苏.浙江.广东等地公安机关开展调查,并于5月29日抓获实施此攻击破坏行为的徐某.王某等4名犯罪嫌疑人.经查,这4名犯罪嫌疑人长期在互联网上经营游戏"私服"广告服务,并于今年2月在互联网上租用服

圣诞节网络瘫痪嫌犯落网,他才18岁

网络黑客疑涉嫌圣诞节网络瘫痪事件被捕 年仅18岁 一名来自英国默西赛德郡的青少年近日因疑似参与了PSN与Xbox Live网络的分布式拒绝服务攻击(DDoS)而遭到了逮捕. 据天空新闻台报道,这一次由英国东南部地区有组织犯罪调查分队(SEROCU)与美国联邦调查局(FBI)联合展开的行动,以涉嫌非法使用电脑资料与制造死亡威胁的理由逮捕了一名年仅18岁的少年,从这名少年家中搜查出的电子设备也都被查封. 英国当局并未明确表示此次的行动是否与PSN与Xbox Live网络在圣诞节遭遇攻击瘫痪一事有关.

英航网络瘫痪原来不是黑客所为 只因工程师拔错电源

英国航空公司(British Airways)今日证实,上月底发生的大规模网络瘫痪事件是人为错误所致.上月底,英国航空公司的计算机网络出现严重故障,导致上千个航班被取消,约7.5万名乘客受到影响. 英国航空当时表示,这起事故是电力故障所致,而不是遭遇黑客攻击,但具体的原因仍在调查中. 今日,英国航空母公司国际航空集团(IAG)CEO威利·沃尔什(Willie Walsh)向记者证实,这是一起人为事件.沃尔什称,当时位于伦敦希思罗机场(Heathrow)附近的一个数据中心的电源被一名工程师错误地拔

暴风CEO冯鑫否认六省网络瘫痪与软件缺陷有关

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 针对近日发生的江苏等6省网站访问故障系暴风影音所致一事,暴风影音CEO冯鑫今日下午对搜狐IT表示,此事和暴风影音无关.5月19日21:50开始, 江苏.安徽.广西.海南.甘肃.浙江六省用户访问网站速度变慢或无法访问.搜狐IT致电中国电信获悉,发生故障是由于暴风影音网站自身域名解析故障,导致 电信DNS服务器访问量突增,导致网络处理性能下降.

腾讯否认是广东电信网络瘫痪“罪魁祸首”

本报讯 (记者薛松) 就前晚广东电信网络瘫痪事件的原因,电信相关人士昨日表示,目前的结论是"路由器的波动,导致了流量异常",但究竟是人为攻击,还是设备故障造成路由器波动?广东电信表示仍在调查之中.被指"罪魁祸首"的腾讯公司有关人士昨日声明,事件并非由腾讯引起,腾讯也是受影响者之一. 据了解,此次广东电信出省路由器出现故障,导致了省内电信互联网用户无法正常上网.而且,大量服务器设在广东的腾讯公司,也因此成为最大受影响者,这也导致了湖北.四川等其他省份的QQ用户无法登录

DDoS攻击是近年来导致网络瘫痪和断网事件的主要罪魁祸首

DDoS攻击是近年来导致网络瘫痪和断网事件的主要罪魁祸首,甚至在百度贴吧上还存在"流量吧",经常有人在上面交易"DDoS木马",企图控制网络流量.高端网络的精髓中国移动通信集团公司某工作人员说,在如今P2P.IM盛行的时代,对于局域网的流量管理.抑制.监测.溯源可谓八字箴言;而对于骨干网络流量的管理,其精髓在于监测和溯源.而如何追本溯源.应对和管理网络异常流量呢?该内部人士介绍,对于异常流量管理这场遭遇战,可以说在电信行业早已打响,这可以追溯到2004年前后.经过近

美国网络瘫痪急着找中国公司背锅,但更大的问题还在后面

这个周末,美国遭遇了史上最大规模的网络攻击,大半个美国互联网一度处于瘫痪状态.目前幕后黑手尚未找到,但参与调查的美国科技公司纷纷把锅甩给了一家生产摄像头的中国公司,这到底是怎么回事? 刚刚过去的这个周末,一场超大规模的DDoS(分布式拒绝服务攻击,即利用伪造的请求占用资源,导致网路瘫痪)攻击整垮了大半个美国互联网. 从东海岸的波士顿.纽约.费城.华盛顿到西海岸的洛杉矶旧金山.西雅图,美国的互联网服务几乎迎来了全面宕机,包括Twitter.Tumblr.Netflix.亚马逊.Shopify.Re