华为USM系统是用来管理ATAE刀片、HP pcserver、IBM pcserver、Oceanspace的方案工具,其可以实现对设备系统的部署、数据的备份、设备的维护等。华为的产品肯定优先支持华为自己的设备,这里主要以ATAE主机为例。
一、远程重启及kdump转储
在维护过程中,经常会遇到主机挂死无响应或hang机的情况。可以通过以下步骤进程重启并转储Kdump信息:
1、打开浏览器输入https://USM_IP:18443 ,使用用户名密码登录后,选择维护--kvm
2、选择相应的刀框和刀片槽位后,可以通过魔术键或发送相应的功能键实现主机重启和kdump转储:
注:
1、KVM发送组合键“ALT+ SYSRQ+d(SLES9) 或“ALT+SYSRQ+c”(SLES10);
2、生成的kdump文件,存放在/home/年-月-日时间目录下。收集系统信息和分析kdump信息,可以使用log_collector.tar.gz工具包。执行sh atae_log_collector.sh后按3,选择OS系统信息收集,工具会自动收集vmcore文件内的信息。也可以通过以下命令收集kdump信息:
crash /usr/lrsp/kdump/vmlinux vmcore <<EOF
bt >bt.txt
foreach bt >all-bt.txt
dev >dev.txt
dev -i >>dev.txt
dev -p >>dev.txt
files >files.txt
foreach files >all-files.txt
irq >irq.txt
kmem -f >pmemory.txt
kmem -i >memory.txt
mach >mach.txt
mod >modules.txt
mount >mount.txt
net >network.txt
net -s >>network.txt
ps >ps.txt
ps -t >>ps-t.txt
ps -c >>ps-c.txt
runq >runq.txt
sig >sig.txt
set >set.txt
swap >swap.txt
task >task.txt
foreach task >all-task.txt
sym -l >sym-l.txt
sym -M >sym-M.txt
log >dmesg.txt
sys >sys.txt
exit
EOF
3、也可以通过smm 刀片管理单板进行命令行下的重启和kdump的转储,命令如下:
SLES9:smmset -l bladeN -d sysrq -v d
SLES10:smmset -l bladeN -d sysrq -v c
二、USM 救援修复
1、 从http://support.huawei.com网站下载rescue软件源rescue.tar.gz;
2、 将rescue软件源rescue.tar.gz拷贝到USM服务器上,例如存放在/tmp目录;
3、 进入/tmp目录并执行命令下面命令解压缩该软件源。
# cd /tmp
# tar -xvzf rescue.tar.gz -C /
命令执行成功后,会将rescue软件源解压缩至USM服务器的/iso目录。
注:以上步骤只需要第一次使用时执行。
4、在USM的“部署>>软件源管理>>制作软件源”界面,选择rescue软件源,单击“制作”,
5、选择“部署 > 部署任务管理”,单击“增加”,创建一个部署任务。选择RESCUE mode软件源,选择要进入救援模式的业务板所在的机框,单击“下一步”,选择要进入救援模式的业务板。单击“下一步”,显示配置软件源参数界面。不需要配置软件源参数,直接单击“下一步”。单击“提交任务”。
6、选择刚刚创建的rescue部署任务,单击“执行”,执行rescue部署任务。
更多信息可以参考:SUSE Linux系统挂死后日志收集指导书、USM远程救援模式操作指导。由于这两个文档为华为内部资料,不再提供链接地址。