HBA卡:
04:00.0 Fibre Channel: QLogic Corp. ISP2432-based 4Gb Fibre Channel to PCI Express HBA (rev 03)
05:00.0 Fibre Channel: Emulex Corporation Zephyr LightPulse Fibre Channel Host Adapter (rev 02)
驱动:
QLogic Fibre Channel HBA Driver: 8.03.01.04.05.05-k
Emulex LightPulse Fibre Channel SCSI driver 8.2.0.63.3p
multipath.conf配置截取:
defaults {
udev_dir /dev
polling_interval 10
selector "round-robin 0"
path_grouping_policy failover
getuid_callout "/sbin/scsi_id -g -u -s /block/%n"
prio_callout /bin/true
path_checker readsector0
rr_min_io 100
rr_weight priorities
failback immediate
no_path_retry fail
user_friendly_names yes
flush_on_last_del yes
}
运行一段时间后的报错:
dmesg
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c6500 2002.
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c65bf 2002.
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c664a 2002.
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c66e7 2002.
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c679b 2002.
qla2xxx 0000:04:00.0: scsi(5:0:1): Abort command issued -- 1 60c6883 2002.
其他信息:
Server DELL R610
FCSW Brocade 300
HP MSA2312FC
报错时,IOSTAT磁盘使用率100,但是实际上rw请求啥都没有.
avg-cpu: %user %nice %system %iowait %steal %idle
13.25 0.00 1.12 12.50 0.00 73.12
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdd 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 100.10
sdd1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdd2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdd3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdd4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 100.10
dm-0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 26.03 0.00 0.00 100.10
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-2 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-3 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 0.00 26.00 0.00 0.00 100.00
ls存储所在目录没有响应
数据库没有响应
收集sosreport再分析一下。
不过两块HBA不是一个厂商的还是很尴尬.
原因查明,存储双控,坏了一个控制器,multipath使用RR模式,可能是双控制CACHE方面的问题导致数据损坏,入门存储还是不可靠啊。
【其他】
可以尝试重新扫描设备 :
find /sys/class/scsi_host/host*/scan | while read line; do echo - - - > $line; done
参考 :
http://blog.163.com/digoal@126/blog/static/16387704020130144424699/
时间: 2024-10-29 01:06:45