在我们的办公局域网内,有两台关键的服务器,一个是
主服务器、一个是备份服务器,中间通过心跳线连接。近日在某台主机改动配置文件后的一次重启后,">网络设置没做任何改动,而心跳功能却不能实现了,两台机器不能通过心跳线互相连通。
★什么是心跳线
心跳线是用于连接A、B两台服务器间的网线。在这两台服务器A、B中,A为工作机,B为备份机,它们之间通过一根心跳线来连接。一般在服务器上都配有两块网卡,其中一块专门用于两台服务器(节点)间的通讯。安装在服务器上的软件通过心跳线来实时监测
对方的运行状态。一旦正在工作的主机A因为各种硬件故障,如电源失效、主要部件失效或者启动盘失效等导致系统发生故障,心跳线会反映给互为备份的另外一台主机,主机B可以立即投入工作。这样可以在最大限度上保证网络的正常运行。这也称为“心跳检测”。心跳线主要利用一条RS-233检测链路来完成,采用Ping方式检测验证系统Down机检测的准确性。
★故障排除
首先恢复配置文件再重启,故障依旧,两台机器都可正常运行,心跳线却依然有问题。看来不是改动配置文件所引起的故障。
由于心跳线是通过网卡相连来检测服务器状态的,
所以要
重点查看每台机器心跳线连接的网卡状态及配置,可经检查网卡状态并没有问题,网卡灯也是亮的。难道是网线没插好或是有问题?重新用一根确认正常的网线替换下原网线,可是两个服务器之间的心跳线还是不通,至此已基本排除了硬件方面的问题,
估计还是网卡的设置有问题。
进入两台机器的网卡状态选项,将两台机器的网卡状态一项一项地进行比较。突然我发现两个网卡的速率及状态不一样,一个是100Mbit/s全双工,而另一个则是10Mbit/s半双工,而其他选项全部相同。难道是这个原因?把两台机器的网卡状态统一设置为100Mbit/s全双工,再用Ping命令检测连接状态,结果显示连接正常,问题竟然解决了。再重新设置配置文件,这次强制网卡状态为100Mbit/s全双工,重新启动机器,服务器工作一切正常。
★总 结
本次故障的原因
其实比较简单,只是表现出来的现象稍微
复杂一些。该服务器使用的是一个10/100Mbit/s自适应以太网卡,设计速度为100Mbit/s。机器重启后,网卡自动选择状态。由于两边网卡所选择的工作状态不一致,导致网络不通。
现在常见的网卡有10Mbit/s、100Mbit/s和10/100 Mbit/s自适应网卡。当使用10Mbit/s或100Mbit/s这两种两个相同固定速率的网卡连接时,一般不会产生什么大问题,可当使用10/100Mbit/s自适应以太网卡时,有时会产生一些莫名其妙的问题。建议大家在使用这类网卡时
最好设置一个初始的速率,且最好两边速率相同,而不要使用自适应。速率设置的问题常常会导致网络时通时不通。
/s自适应以太网卡时,有时会产生一些莫名其妙的问题。建议大家在使用这类网卡时最好设置一个初始的速率,且最好两边速率相同,而不要使用自适应。速率设置的问题常常会导致网络时通时