高可用性 (HA) 是经常与云">基础架构解决方案一起出现的一个词汇,主要是指业务的连续性和最短的停机时间。具体而言,任何云基础架构中的 HA 应当具有以下目标:
减少计划内停机
防止计划外停机 快速从宕机中恢复 持续的可用性
支撑云基础架构的是现代的虚拟机管理程序,它提供了实现 HA 的大部分功能和特性。本文将简要介绍 IBM SmartCloud Enterprise+ 如何处理计划内和计划外的服务器宕机,如何从宕机事件中恢复,以及如何确保持续的服务器可用性。然后,本文将描述 IBM SmartCloud Enterprise+ 中虚拟机 (VM) 的 HA 实现,这些虚拟机运行在 IBM System x 和 System p 平台上的 VMware 和 AIX (LPAR) 逻辑分区之上。
减少计划内停机
计划内宕机通常是为了进行软件维护或发布、更新或进行预定的设备维修。大多数云供应商都安排了一些计划内宕机,但是由于公司的运营基于高正常运行时间,所以计划内宕机需要保持在一个最低的水平。
IBM SmartCloud Enterprise+ 提供了一种自动化方法提供 VM 补丁,并对 OS 进行安全和非安全的更新。它会按照预先定义的周期自动部署更新(由客户决定在该周期内对哪些 VM 安装补丁),不需要任何人工干预。这种完全自动化的补丁方式极大地减少了计划内宕机的次数,使 VM 能够长时间可用,从而确保了业务的持续性。
防止计划外停机
引起云环境中计划外停机的原因有很多种。主要原因是虚拟机管理程序基础架构故障、OS 故障和网络故障。
IBM SmartCloud Enterprise+ 可以在最短的停机时间内处理大多数常见的故障。正如本文后面将介绍到,System x 上的监视代理和 System p 上的本机 daemon 可以检测 OS 故障;而 System x 上的 VMware 心跳时间间隔和 System p 上的一些本地 daemon 可以检测网络故障。
快速恢复宕机
对于计划外停机引起的宕机,恢复速度取决于故障的性质。宕机可能是主机平台故障或存储故障引起的,也可能是 OS 故障或网络故障引起的。如果云供应商没有进行恰当的规划,那么由主机平台故障或存储故障引起的宕机将会导致严重的数据和运行时丢失。
IBM SmartCloud Enterprise+ 中的故障转移机制能够使系统从主机平台和存储故障中快速恢复。故障主机平台上的所有工作负载都会分配到其他主机平台,并且停机时间很短。存储故障由镜像后的数据存储处理。VM 中的所有数据都将在两个数据存储中复制;如果一个数据库出现故障,那么 VM 可以启动并运行另一个复制的数据存储。
持续的可用性
减少计划内和计划外停机,并从宕机中快速恢复,这些都有助于实现持续的可用性,服务器(在平台即服务云中)正是靠这一点才能在大部分时间保持活跃状态,并且只需要非常短的停机。持续可用性可以通过以下方式实现:
在底层虚拟机管理程序中适当地配置 HA 特性 使用操作系统提供的特性实现某些故障检测 监视服务可以监视任何 OS 故障 应用程序监视有助于实现应用程序高可用性
IBM SmartCloud Enterprise+ 使用了大多数由虚拟机管理程序提供的 HA 可用性特性,如主机平台上的故障转移机制、重启优先级、心跳间隔、OS 监视和故障检测,以及死机检测。