常用PC服务器阵列卡、硬盘健康监控

通常,我们使用的DELL/HP/IBM三家的机架式PC级服务器阵列卡是从LSI的卡OEM出来的,DELL和IBM两家的阵列卡原生程度较高,没有做太多封装,可以用原厂提供的阵列卡管理工具进行监控;而HP的阵列卡一般都做过封装了,因此需要使用自身特有的管理工具来监控。

本文以几种常用的阵列卡为例,展示其阵列卡及硬盘监控的方法。
DELL SAS 6/iR卡,全称LSI Logic SAS1068E,只支持RAID 0, RAID 1, RAID 1+0, 不支持RAID 5等高级RAID特性,不支持阵列卡电池。
DELL PERC PERC H700卡,全称LSI Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
DELL PERC H310 Mini卡 ,全称LSI Logic / Symbios Logic MegaRAID SAS 2008,支持常见RAID级别,不支持高级RAID特性,不支持阵列卡电池。
IBM ServeRAID M5014 SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 2108,支持各种RAID级别及高级特性,可选配阵列卡电池。
IBM ServeRAID-MR10i SAS/SATA Controller卡,全称LSI Logic / Symbios Logic MegaRAID SAS 1078,支持常见RAID级别,不支持高级RAID特性,可选配阵列卡电池,这个卡其实和DELL的PERC 6/i卡是一样的,都是基于LSI MegaRAID SAS 1078基础上OEM出来的。

上面是几种常见的阵列卡型号,更多的可以自行查看官方的技术手册。

下面我们要继续的是,这些阵列卡以及硬盘如何监控,阵列卡的管理也请查看官方技术手册,不在本文讨论范畴,或者查看作者的一个分享PPT:PC服务器阵列卡管理简易手册。

一般地,支持RAID 5的卡,我们称其为阵列卡,都可以使用LSI官方提供的MegaCli工具来管理,而不支持RAID 5的卡,我们称其为SAS卡,使用lsiutil工具来管理。HP的服务器使用其特有的hpacucli工具来管理。

1、MegaCli工具
a) MegaCli -adpallinfo -aall -- 查看阵列卡信息
-a 参数指定阵列卡的编号,一般服务器上只会配一个阵列卡,因此我们通常指定为 -a0(阵列卡适配器编号,从0开始) 即可,主要关注下面几个信息:

状态值 对应含义
Product Name : PERC H710 Mini 阵列卡名称
FW Package Build: 21.2.0-0007 阵列卡firmware版本号,版本如果太低,建议升级以提高稳定性及性能
BBU : Present 是否有配BBU电池


b) MegaCli -cfgdsply -aall -- 查看阵列配置

状态值 对应含义
Memory: 512MB 阵列卡cache大小,2的N次方,如果不是,说明阵列卡有异常
Number of dedicated Hotspares: 0 阵列是否有专用/独享热备盘(如果有多个逻辑磁盘组/disk group,则可以指定一个硬盘用于全局热备,那么该disk group上的专用热备盘数量为0也不用担心),除了RAID 1/RAID 1+0一般不指定热备盘以外,其他几个阵列级别建议都要指定热备盘
State : Optimal 阵列状态,如果不是 Optimal 就要关注了
Current Cache Policy: WriteBack, ReadAheadNone, Direct, Write Cache OK if Bad BBU 阵列读写cache策略,建议写策略设置为FORCE WB,最起码是WB,预读策略可以关掉,意义不大,几乎没影响
Disk Cache Policy : Disabled 硬盘cache策略,建议关闭,防止意外时数据丢失
Current Power Savings Policy: None 节电策略,建议关闭
Media Error Count: 0 三个错误计数器,任何一个值大于100就要立刻引起关注,尤其要关注起增长速度。1T以上SATA盘,计数值不够精确,可能所有盘上该值都会大于0,一般重启就会重新清0,如果重启后还是大于0的话,赶紧报修吧。SAS盘的计数值则比较准确。
Other Error Count: 0
Predictive Failure Count: 0
Firmware state: Online, Spun Up 查看硬盘状态,如果是unconfigured表示该硬盘未分配加入到阵列中;如果是 unconfigured(bad)表示该盘不但是未分配,而且还坏了,正是“出师未捷身先死”;如果是failed,表示该盘故障无法识别;如果是rebuilding,表示该盘正在重建数据


c) MegaCli -adpbbucmd -aall -- 查看阵列卡电池信息

状态值 对应含义
Temperature: 39 C 查看电池温度,如果相比上一次查看高出不少,就需要关注了,或者可以根据经验设置一个基线值
Battery State: Optimal 电池状态,如果不是为Optimal,就需要关注了
Charger Status: Complete 电池充放电状态
isSOHGood: Yes 电池状态,如果不是为Yes,需要关注
Relative State of Charge: 93 % 当前电量,当电量低于15%,或者电池坏掉时,默认都会将写策略从WB改成WT,除非设定为FORCE WB策略
Max Error = 0 % 电池是否有错误信息
Next Learn time: Tue Oct 14 22:06:50 2014 电池充放电时间,注意这是美国时间。另外,新的阵列卡电池很多改成电容式的了,也就不需要重复充放电了


d) MegaCli -fwtermlog -dsply -aALL 查看阵列卡日志,关注里面的error/fail/warn等多个关键字


2、lsiutil工具
lsiutil有交互和非交互两种方式,作为监控,我们肯定选择非交互模式。想要使用交互模式的,可以根据非交互模式自行练习。

a) lsiutil -p 1 -a 20,12,0,0 -- 查看硬盘计数器
Invalid DWord Count 2,563 -- 任何一个值大于0,都需要引起关注
Running Disparity Error Count 2,366
Loss of DWord Synch Count 0
Phy Reset Problem Count 0


b) lsiutil -p 1 -a 21,1,0,0,0 -- 查看逻辑卷状态

状态值 对应含义
Volume State: optimal, enabled 逻辑卷健康状况
Volume draws from Hot Spare Pools: 0 是否有热备
Volume Size 139392 MB, 2 Members 由几块硬盘组成
Primary is PhysDisk 1 (Bus 0 Target 9) 物理硬盘1
Secondary is PhysDisk 0 (Bus 0 Target 3) 物理硬盘0


c) lsiutil -p 1 -a 21,2,0,0,0 -- 查看物理硬盘状态

状态值 对应含义
PhysDisk 0 is Bus 0 Target 3 编号
PhysDisk State: online 状态
Error Count 13, Last Error: Command = 28h, Key = 3, ASC/ASCQ = 11h/00h 错误计数器,大于0的话,就需要引起关注


3、hpacucli工具
hpacucli工具查看阵列、硬盘、电池信息,其实就只要一条指令:

hpacucli ctrl all show config detail -- 查看阵列详细信息、配置


状态值 对应含义
Controller Status: OK 阵列卡状态
Firmware Version: 1.18 firmware版本,太低了建议升级,以提高稳定性及性能
Cache Board Present: True 是否配备了cache模块
Cache Status: OK cache模块状态
Cache Ratio: 100% Read / 0% Write cache策略,此处只有读cache,不用于写cache,因为没有bbu电池,见下方结果
Drive Write Cache: Disabled 关闭磁盘cache
Total Cache Size: 256 MB cache大小
Total Cache Memory Available: 208 MB 实际可用cache大小,和理论cache大小不一样,说明cache模块可能有问题
No-Battery Write Cache: Disabled 关闭FORCEWB策略
Battery/Capacitor Count: 0 阵列卡BBU电池数量为0,也就是没有BBU模块
Battery/Capacitor Status: Failed (Replace Batteries) 阵列卡BBU电池状态,这里显示是错误状态,需要及时更换
Array: A 第一个乌列阵列,编号从A开始,依次是A、B、C
Status: OK 物理阵列状态
Logical Drive: 1 第一个逻辑卷,编号从1开始
Fault Tolerance: RAID 5 第一个逻辑卷的阵列级别
Status: OK 第一个逻辑卷状态
Caching: Enabled 第一个逻辑卷是否启用了cache策略
physicaldrive 1I:1:1 第一块物理硬盘,编号从1开始
Status: OK 第一块物理硬盘状态
Firmware Revision: HPDA 第一块物理硬盘firmware,如果太低,也需要及时升级,HP的硬盘每个批次都有不同的firmware

延伸阅读:

http://www.lsi.com/downloads/Public/Obsolete/Obsolete%20Common%20Files/mr_sas_stor_ug.pdf
http://www.hp.com/ctg/Manual/c00709035.pdf
http://www.wafl.co.uk/tag/sasadmin/
http://docs.oracle.com/cd/E19121-01/sf.x4200/819-1157-23/F_BIOS_RAID.html

===============================================================================

如果还有什么问题,欢迎加入我的QQ群(125572178、272675472)讨论。

===============================================================================

题图:袁绍

袁绍,字本初。司空袁逢之子,汉末著名军阀。出身名门望族,自曾祖父起四代有五人位居三公,自己也居三公之上,其家族也因此有“四世三公”之称。袁绍初为司隶校尉,于初平元年(190)被推举为反董卓联合军的盟主,与董卓交战;但不久联合军即瓦解。此后,在汉末群雄割据的过程中,袁绍先占据冀州,又先后夺青、并二州,并于建安四年(199)击败了割据幽州的军阀公孙瓒,势力达到顶点;但在建安五年(200)的官渡之战中大败于曹操。在平定冀州叛乱之后,于建安七年(202)病死。

有一句比较贴切的话评价袁绍,那就是:色厉胆薄,好谋无断;干大事而惜身,见小利而忘命,非英雄也。

文章转自老叶茶馆公众号,原文链接:https://mp.weixin.qq.com/s/L17sHeIn702JKVKiOhpiDw

时间: 2024-10-04 00:54:08

常用PC服务器阵列卡、硬盘健康监控的相关文章

阵列卡问题阵列1坏了一个硬盘换新的上去不能同步

问题描述 我电脑安装了一个promisefasttraktx4310的阵列卡做了阵列1的.但一个硬盘坏了,换一个新的硬盘上去不能同步.我按ctrl+f进去阵列卡里设置没看到有恢复选项的,但一个硬盘能启动到系统里里面文件都还在没少.请问如何操作才能让它恢复阵列1在不丢失数据的前提下也不是备份好数据重新做阵列.请各位高手帮帮忙忙,谢谢! 解决方案 解决方案二:这个你到硬件区去问一问解决方案三:raid信息是写在硬盘里面的,如果你另外硬盘没有,插入新硬盘会自动复制的,有的整列卡比较弱,需要你将新的硬盘

DELL服务器RAID H700,PERC H800阵列卡配置中文完全手册图解_服务器其它

对RAID进行操作会导致数据丢失,请在操作之前务必将重要数据妥善备份.名称解释:    Disk Group:磁盘组,这里相当于是阵列,例如配置了一个RAID5,就是一个磁盘组    VD(Virtual Disk): 虚拟磁盘,虚拟磁盘可以不使用阵列的全部容量,也就是说一个磁盘组可以分为多个VD    PD(Physical Disk): 物理磁盘    HS:Hot Spare 热备    Mgmt:管理 开机自检按Ctrl+R进raid卡配置界面[一],创建逻辑磁盘 1.按照屏幕下方的虚拟

WINPE3.0集成RAID阵列卡驱动的实现方法_服务器其它

最近一个朋友的服务器出现了问题,经了解他的服务器是组装的,且配置了RAID5阵列,目前无法正常启动系统,且中间一盘电源系统掉了,对数据进行了损坏,RAID正在进行数据修复中,但复制完成后发现系统无法启动,且重新安装系统也会报需要格式化磁盘,这时候如果直接安装又怕数据损坏,但是他需要将数据备份出来,于是想到了用WINPE系统,但是就目前而言百度能找到的PE系统都是无RAID阵列卡驱动的,或都阵列卡驱动不对的,为此我需要自己定制一个PE系统来解决这一问题,在这里将PE系统定制的方法说一下,希望以后遇

华为RAID 1阵列卡设置教程图文详解_服务器其它

开机启动 当看到这个界面的时候,根据提示 按 Ctrl+C 进入阵列卡设置界面(6i卡也是这样) 直接按回车键(Enter)进入下一步操作 使用Tab键切换到 raid 下面是删除阵列的方法 开机启动

什么是阵列卡

  磁盘阵列是一种把若干硬磁盘驱动器按照一定要求组成一个整体,整个磁盘阵列由阵列控制器管理的系统. 阵列卡的全称叫磁盘阵列卡 是用来做 RAID(廉价冗余磁盘阵列) . 冗余磁盘阵列RAID(Redundant Array of Independent Disks)技术1987年由加州大学伯克利分校提出,最初的研制目的是为了组合小的廉价磁盘来代替大的昂贵磁盘,以降低大批量数据存储的费用(当时RAID称为dundant Array of Inexpensive Disks 廉价的磁盘阵列),同时也

DELL 5I/6I阵列卡快速设置图文教程

最近购买了服务器使用了6I阵列卡,由于是第一次接触不是很懂,这里简单介绍下, 基本上看了图片都懂了充分利用F2操作选择即可 注意:5I与6I阵列卡设置方法一样 一.设置RIAD 0 1.进入阵列卡设置,按CTRL+R进入阵列卡BIOS设置 下面那一堆英文,就是THE BATTEY开头,以ASSISTANCE结束的这段,是提示阵列卡未接电池,可以忽略,不影响正常使用. 2.阵列BIOS默认界面 3.在CONTROLLER菜单上面按F2键,如图 弹出菜单第一位,选择Create New VD,创建新

说说常用的服务器操作

想写写自己日常常用的服务器操作,但是想到这个题目还是有点大的.鸟哥两本linux私房菜的书才说完了所有的服务器操作命令,这里一次性列出来也不现实.差不多这里就写写一些比较常用的命令吧.   ps aux|grep XXX 这个是最常用的命令了,查看一个进程的状态啥的.还能看到端口号,运行时间等.如果需要批量关掉这些进程,也可以延生使用管道: ps aux|grep XXX|awk '{print $2}'|xargs kill   netstat -anp|grep XXX 记得老王微博上有问过

一次记阵列卡电池失效引起的IO性能故障

一台Dell服务器,购于2009年,安装ESX 4.1,近日陆续接到使用部门反映"VM运行缓慢". 观察机器上开着的VM约10余台,CPU使用率约50%,内存的使用率约60%,负载不重. 该机器存储的平均写入/读取滞后时间(50ms)明显高于其他机器(5ms),怀疑瓶颈在IO. 同时机器Raid 卡电池报错,处于health not good 状态(已有数周时间,因采购手续再加上觉得问题未及时更换). 然后查看阵列卡TTY日志, Current Cache Policy: WriteT

DELL服务器 Dell PowerEdge服务器RAID卡驱动大全_服务器其它

Dell PowerEdge服务器RAID卡驱动下载 DELL新阵列卡驱动下载 型号 支持系统驱动 H310/710 /710P/810 Win2008 x32 Windows 2008 x64 Windows 2008 R2 Windows 2012 H700/H800 Win 2003 x32 Windows 2003 x64 Windows 2008 x32 Windows 2008 x64 Windows 2008 R2 H200 Win 2003 x32 Windows 2003 x6