前言:上周接浦东一客户报服务器频繁蓝屏并死机,导致DHCP等该服务器承载的服务停止运行。客户服务器型号为联想万全R510,操作系统使用正式版windows server 2003 SBS。
事故处理流程及分析:
第一次:接客户报告,赴客户处现场勘察。得知服务器在未经非授权操作及误操作的情况下自然死机,并蓝屏。记录蓝屏错误代码0x000000d1 (0xc5f32820, 0x00000002, 0x00000008, 0xc5f32820)。
分析:首先怀疑软件问题导致蓝屏错误并死机。1.确保所有驱动程序可靠;2.删除serv-u等服务器应用软件,仅保留反病毒软件Mcafee和数据库SQL;3.保证服务器已更新并安装windows2003更新文件。后运行观察。(或运行于安全模式下)
第二次:次日接客户报告,反映服务器发生同昨日故障。赴客户现场勘察。确定错误状况和昨天相同。记录蓝屏错误代码0x00000050 (0xc1e1e2a0, 0x00000000, 0xbf899f25, 0x00000000)。
分析:通过在查询相关错误代码信息,发现0x000000d1和0x00000050 错误大部分发生于服务器内存硬件问题,且由于昨天已基本排除服务器软件因素。在致电联想北京和微软进行相关支持后,更加明确此服务器内存故障的可能性。故立即联系联想北京总部,确定次日上午10点安排联想技术工程师协助进行硬件检测。
第三次:按照约定于10点到达客户处,与联想技术工程师俞先生对服务器内存进行检测,使用工具memtest。果然在检测刚刚开始便不断提示内存错误并报警。在与联想总部说明情况并安排发送内存备件后,与俞先生约定次日上午更换内存。
第四次:按照约定时间到达客户处,与联想分销商技术人员更换服务器内存。并进行测试,使用工具memtest,这次检测过程顺利结束。在重装相应服务器应用软件后运行观察。
第五次:隔日没有接到客户报告,VPN连接到客户网络,远程连接服务器,检查事件日志,服务器运行一切正常。
至此,本次服务器事故解决。
写在最后:由于此次事故中服务器刚刚采购不足1个月,因此一开始对硬件问题并不重视,导致直到第三次现场服务才最终确定是内存问题,花费的诊断成本较高。蓝屏错误代码是估断问题很重要的线索,由于整串代码后4组在各个环境中都不相同,因此只需查询第1组的代码翻译。