如何快速发现服务器故障?FDM系统来帮忙

我最近一直忙着满世界出差,特别是前几天去德国法兰克福参加ISC超算行业盛会的时候,结识了不少国内外的超算供应商。在当天晚饭闲聊的时候,大家很自然的就谈到了不同品牌甚至不同国家对于计算设施,具体来说就是服务器的设计理念。

不同品牌服务器的差别究竟有多大?这个问题可谓是见仁见智。

从业的“新手”说:这东西设计不同、管理不同、这不同那不同,总之很不一样;

从业的“老人”却说:这东西没啥区别,都是英特尔的平台,能有多大区别?

后来这个话题讨论得还相当热烈,不同阵营的人都在列举各自的例子试图说服对 方,一时间在热闹的德国饭馆里,我们这伙人的聒噪显得与环境是那么的融合。

后来,某位来自国字头科研院所的领导一锤定音——不管什么品牌的服务器,只要达到一定规模,哪天还不坏个三台五台的?

于是大家都沉默了,转而纷纷举杯,沉浸在德国啤酒的苦涩与甘甜之中,就如服务器运维者那样,百感交集。

尽管在出厂时,各家服务器都有着非常严苛的测试,许多品牌还进行了这样或者那样的便捷维护方案,但是在大规模部署的时候,或多或少都会遇到宕机的问题,这也让数据中心的维护者每天疲于奔命。

所以,对于这些运维者来说,最重要的并非是采用哪家的服务器,而是如何减轻运维的包袱。依靠增加人力并不是最好的手段,很显然还需要从技术层面去解决。

这也正是华为服务器一直所努力的方向。众所周知,服务器的硬件种类多、故障原因复杂,时不时的报警与宕机更是让人摸不着头脑。许多时候,当系统发生严重故障时,由于OS不支持等原因没有记录下产生的MCE码,因此进行故障信息收集、定位分析等问题就显得愈加困难。

为此,华为推出了名为FDM的(Fault Diagnosis& Management)故障诊断管理系统,就是针对这一类问题提供的解决方案。

带外处理的OS故障解决方案

一般来说,针对服务器的应用问题,许多品牌早就有了明确的方案。一方面从硬件角度,服务器会在前面板设置报警指示灯,通过指示灯的颜色变化与闪烁频率可以简单的判断服务器的基本状态,是否有处理器、硬盘、网络等方面的问题;另一方面,通过服务器的OS或者BIOS系统,也可以简单记录服务器的运行基本信息,实现基础的运维管理。

之所以称之为“基础”,是因为这些手段仅能够支持小规模、常态化的情况。试想一下,当你步入一个承载了千百台服务器的机房当中,你如何通过某台服务器的指示灯闪烁或者报警声音来判断故障情况?甚至有可能,当你身处那个吵杂环境当中时,你根本不会关注到某台服务器的细节,直到终端客户打电话来投诉。

相比系统报警来说,OS信息记录或许是一个比较好的方式,不过更多时候这个应用的效果表现在事后的复查当中,而且由于系统已经宕机,这时候信息或报告等否被100%保存下来并不确定。因此对于有效的运维来说,仅仅依靠这两套方案是完全不够的。

华为FDM的做法可能为业界提供一个新的思路。按照FDM的计划,除了行业通用的以OS为中心的故障处理系统之外,华为的服务器中还会新增一套带外(不依赖于OS)故障处理系统,解决现有OS在严重故障系统死机无法抓取故障数据的技术难题。

这样一来,就能够有效解决OS故障的记录问题,从而使得问题得以回溯,让运维人员能够察觉到真正的问题所在,并予以解决。

全BMC的监测机制

相比于OS来说,如今许多服务器都采用了BMC的管理方式。BMC是基板管理控制器的简称,它的主要作用就是实现本地和远程诊断、控制台支持、配置管理、硬件管理和故障排除。

我记得那还是2010年的时候,当某厂商的售前为我演示BMC接口的作用时,我惊为天人。“还可以这样玩”,这可能是我当时脑子里跳出的第一个想法。

后来,BMC接口成为了许多服务器的标配,这也大大方便了管理员的日常工作。试想,在家里躺在沙发上,报个笔记本,手指轻轻一点就能把在公司的某些服务器开机或关机,那是多么惬意的事情!

当然了,BMC的能量可不只是这么一点点。在华为服务器当中,BMC功能承担了重要的角色,通过将故障信息汇聚到BMC并由BMC在带外做更进一步的故障分析、定位、预告警等,华为的服务器可以克服OS作为故障处理中心的能力不足、不可控、影响系统性能等难题,当运维真正实现便捷和智能化。

海量故障信息看不懂怎么办?

就像文章最开始那位老领导提到的,在规模庞大的数据中心,每天的服务器故障数量都是惊人的,这些数据经过日积月累,需要不断分析与判断,才能实现便捷的运维。

但是对于运维人员来说,面对这些数据显然没有足够的时间一一分析,这也就需要从技术手段实现规模化、批量化的处理。相比人类,机器对于这样重复性的筛选与排查工作显然更适合,也更能够高效的处理。

为此,基于华为对服务器故障机制的技术积累,以及对海量故障样本数据归纳总结的能力,华为服务器提供了“故障诊断定位”与“故障预告警”两大专家系统,提升故障一次性、自动化诊断准确率。

举个例子来说,当系统中的服务器出现故障的时候,“故障诊断定位”可以在第一时间告诉管理员哪排机架中、哪台机柜上的哪台服务器的哪个部件出现了问题,大大缩短了定位的时间;而“故障预告警”甚至可以在此之间就根据服务器的运行状态,结合以往的故障情况提前进行警告,比如提醒管理员需要更换散热风扇等等。

应该说,集合上述三项特色运维功能于一身的“FDM故障诊断管理系统”,可以帮助客户更好的完成故障信息(带内/带外)收集与解析、尽快的实现故障诊断定位、前瞻性的提供故障预告警,从而大大简化运维步骤,解决时间与人力成本。

如今,华为的“FDM故障诊断管理系统”已经全面部署在某大型互联网公司当中。在此之前,由于该公司某批次服务器的PCI故障原因迟迟无法定位,导致服务器故障后无法部署业务,造成了大量的浪费。在应用华为“FDM故障诊断管理系统”之后,可以实现快速定位,并成功更换故障部件,帮助该公司快速恢复业务,缓解了应用危机。

日常,我们使用微信作为社交手段、使用百度地区导航、使用淘宝、京东实现网上消费,而在这些互联网巨头的背后,都是海量的服务器在支撑着计算与存储平台,保障我们的信息化生活。华为“FDM故障诊断管理系统”的出现,正是为这些服务器提供了坚强的运维后盾,也帮助那些互联网巨头接触后顾之忧,为我们提供更便捷、更舒适的生活体验。

本文作者:刘策

来源:51CTO

时间: 2024-09-21 21:08:23

如何快速发现服务器故障?FDM系统来帮忙的相关文章

ubuntu-非常奇怪的服务器故障,希望大家帮忙解决!

问题描述 非常奇怪的服务器故障,希望大家帮忙解决! 自从公司Web服务器换成Linux系统(Ubuntu 12.04LTS)后,服务器经常死机(大概几天会有一次吧,有时候是一个星期这样),症状为SSH连接上去后,提示输入用户名密码,输完密码后,介面就一直停住没有任何响应,一直搞不明白什么原因,无奈只能叫机房重启.为了解决问题,后来部署了监控宝对服务器进行监控,发现服务器死机时,CPU的使用率到达了100%,但其中用户态使用率(%User)及内核态使用率(%System)相当底,甚至为0,但等待率

大量用户升级iPhone3.0系统导致苹果服务器故障

北京时间6月18日消息,据国外媒体报道,苹果最新的iPhone 3.0系统周三正式上线,用户可以将iPhone和iPod Touch升级至该系统.不过由于大量用户同时进行升级,苹果服务器周三出现故障.    许多用户在Twitter上报告升级时出现的错误.出错之后,苹果的系统升级页面会显示:"我们无法完成你的iTunes商店请求,网络连接超时." 业内人士指出,这样的提示消息大多出现在iPhone 3.0软件安装即将结束时,可能是由于苹果服务器无法同时处理大量的升级请求引起的.出现这一

服务器和应用系统迁移方案

服务器和应用系统迁移方案 一.迁移方案总体思路 新旧系统的迁移是一个整体系统工程.迁移必须保证用户系统建设的相关要求,在迁移过程中,我们需要重点考虑几个问题: 1.数据迁移如何保障"业务中断停机时间".业务中断对用用户无论是生产环境还是测试环境均存在较大的恢复风险,这样的风险特别是对于时间敏感型数据还是对于数据完整性业务都是不可以接受的.我们基于这样的要求,考虑到如何将停机时间最小,能否实现0停机的建设目标? i. 对于服务器操作系统而言,我们可以采用P2V的方式,利用操作系统的Vol

如何排除服务器故障

  本文主要分三部分:第一部分讲的是服务器故障排除的基本原则性问题;第二部分讲述了一些服务器硬件故障排除的实例;第三部分讲述了一些服务器软件故障排除的实例. 第一部分 服务器故障排除的基本原则性问题 一.服务器开机无显示应怎么办 1.检查供电环境,零-火;零-地电压 2.检查电源指示灯,如果亮,正常吗 3.按下电源开关时,键盘上指示灯亮吗?风扇全部转动吗 4.是否更换过显示器,更换另一台显示器 5.去掉增加内存 6.去掉增加的CPU 7.去掉增加的第三方I/O卡 8.检查内存和CPU 插的是否牢

《构建高可用Linux服务器 第3版》—— 2.5 紧急处理线上服务器故障的办法

2.5 紧急处理线上服务器故障的办法 很多时候,网站或业务系统的服务器出现了故障,我们必须紧急修复,保证网站或业务系统能够使用.一般我们会遇到哪些系统故障,又该如何来处理呢?接下来逐个分析. 2.5.1 更改Administrator密码导致计划任务无法执行 问题描述:公司有位系统管理员离职了,他曾负责管理多台Windows Server 2003服务器,于是负责安全的部门要求接手的系统管理员更改Administrator密码,粗心的系统管理员急急忙忙地更改了Windows Server 200

《Effective Debugging:软件和系统调试的66个有效方法》一第5条:在能够正常运作的系统与发生故障的系统之间寻找差别

第5条:在能够正常运作的系统与发生故障的系统之间寻找差别 我们通常都能够同时访问这样两个系统,其中一个是发生故障的系统,另一个是与之相似但却可以正常运行的系统.当我们实现了某项新功能.更新了某些工具或基础组件,或是把系统部署在某个新的平台上面时,就可能会遇到新系统无法正常运行的问题,此时如果旧系统依然正常,那么我们通常可以通过寻找(下面就会讲到如何寻找)或尽量缩小(参见第45条)新旧两个系统之间的差别来锁定问题的原因.之所以能根据新旧系统间的差距来进行调试,其原因在于:尽管各人所经历的问题有所不

服务器故障排查的前五分钟[转]

我们团队为上一家公司承担运维.优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系统).要是再赶上修复时间紧.奇葩的技术平台.缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆. 遇到服务器故障,问题出现的原因很少可以一下就想到.我们基本上都会从以下步骤入手: 一.尽可能搞清楚问题的前因后果 不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况.不然你很可能就是在无的放矢. 必须搞清楚的问题

运维人员处理服务器故障的方法总结_服务器其它

我们团队为上一家公司承担运维.优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系统).要是再赶上修复时间紧.奇葩的技术平台.缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆. 遇到服务器故障,问题出现的原因很少可以一下就想到.我们基本上都会从以下步骤入手: 一.尽可能搞清楚问题的前因后果 不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况.不然你很可能就是在无的放矢. 必须搞清楚的问题

《Effective Debugging:软件和系统调试的66个有效方法》——第5条:在能够正常运作的系统与发生故障的系统之间寻找差别

第5条:在能够正常运作的系统与发生故障的系统之间寻找差别 我们通常都能够同时访问这样两个系统,其中一个是发生故障的系统,另一个是与之相似但却可以正常运行的系统.当我们实现了某项新功能.更新了某些工具或基础组件,或是把系统部署在某个新的平台上面时,就可能会遇到新系统无法正常运行的问题,此时如果旧系统依然正常,那么我们通常可以通过寻找(下面就会讲到如何寻找)或尽量缩小(参见第45条)新旧两个系统之间的差别来锁定问题的原因. 之所以能根据新旧系统间的差距来进行调试,其原因在于:尽管各人所经历的问题有所