3.3 服务运维功能
监控是运维过程中最重要的核心,因为它收集事件、检测事故和度量以判断是否符合服务级别协议。它提供了服务改善的基础。服务级别协议也可以定义和监控运维活动,例如,发生事故后的响应时间。
监控可以和其他控制结合在一起,例如,对云资源的自动伸缩,即在一个Web服务器池中,当平均CPU负载达到70%时就触发一个规则来启动新的Web服务器。控制可以是开环或者闭环。开环控制(即不考虑监控反馈)可以用于在预定的时间进行常规备份。在闭环控制中,在决定采取行动时考虑监控信息,例如在自动伸缩的例子中,闭环反馈周期可以嵌入在更复杂的控制环中,其中低级别的控制对具体的度量指标进行反应,而高级别的控制考虑更广范围的信息和长时间跨度的发展趋势。在最高级别,控制环可以连接不同的生命周期活动。根据所需度量的测量偏差,持续服务改进可以产生服务策略、设计和移交的改变——所有这些最终也都会反过来改变服务运维。
监控的结果由开发或运维团队来进行分析并采取行动。当制定DevOps过程时必须做一个决定:应该由哪个团队负责处理事故?参见第10章关于事故处理的讨论。有一种DevOps实践是开发团队分析他们自己开发的单系统监控的结果,而包括基础设施的多系统监控则由运维团队负责,同时运维团队还负责需要一个或多个开发团队合作处理的事故上报。
时间: 2024-10-09 13:31:59