如何处理IT事件管理以避免混乱

摘要:IT系统已经宕机,它正在影响业务。发生了什么事,以及需要采取哪些措施才能让所有的事情恢复稳定?这种困境在技术平台上建立商业能力的现代企业中经常出现。IT事件响应不能留给纯粹的反应过程,企业不能无序发展,而是需要一个周密的管理和解决系统。

当一个重要的应用程序崩溃时,用户最好有适当的IT事件管理流程和程序来解决它。

IT系统已经宕机,它正在影响业务。发生了什么事,以及需要采取哪些措施才能让所有的事情恢复稳定?

这种困境在技术平台上建立商业能力的现代企业中经常出现。IT事件响应不能留给纯粹的反应过程,企业不能无序发展,而是需要一个周密的管理和解决系统。

IT事件管理和解决是组织如何在其技术平台上维持系统可用性和正常运行时间的核心。

在ITIL服务管理框架下,IT事件管理被描述为记录和解决事件的定义过程。目的是尽快恢复对客户的服务,通常是通过解决方法或临时修复,而不是永久解决方案。

快速解决是值得称赞的,但IT部门如何确保这种情况发生在物理,虚拟和云环境的混合组合,伴随异构IT带来的所有复杂性?

IT事件类型

工具应确保事件不会成为问题。ITIL将事件与问题区分开来:事件是一种易于影响用户并单独发生的事件;问题是在事件发生之前重复事件或识别IT基础设施中的问题。跟踪事件和使用模式匹配算法有助于处理问题。让人们专注于产生IT组织响应的一次性事件。

事件属于硬故障,软故障,以及软件故障:

·硬故障是IT平台中的物理资产(例如服务器,网络链路或存储阵列)或其中任何组件的故障。

·由于IT平台内的虚拟结构(例如虚拟服务器,存储卷或网络链路)中的故障,会发生软故障。

·软件事件是软件中由编码错误或应用程序所依赖的数据损坏引起的故障。

IT事件管理过程

任何IT事件管理方法的第一个方是根本原因分析:首先是到底什么导致事件的发生?因此,管理工具的第一个重点是发现事件是否发生在软硬故障或软件问题上。

第二个重点必须是尽快修复或规避问题,以尽量减少事故造成的损害。完全修复是IT事件响应的最佳结果。将系统恢复到之前的状态,而不会因为业务连续性而损失性能或数据计数,但并不总是可能的。完整的修复可能需要时间来实现。部分修复其中可能对用户体验有轻微的负面影响,或已知数据量丢失,应该是其最低目标。

最终安全措施灾难恢,只能用于完整的灾难。灾难恢复总是导致一段时间的能力损失和数据的明显丢失。

工具还应确保事件不会成为问题,这意味着任何最终解决方案都是长期的,并阻止未来事件再次发生。如果适当的IT事件响应首先需要战术性修复作为解决方案以启用客户,则较长的进程应识别并实施长期修复。

留下痕迹

在IT审计的情况下,这些工具可以证明是有用的。例如,从即时通讯工具中添加详细信息有助于证明所做的工作,何时,如何处理事件以及采取了什么步骤阻止它们成为问题。一个经过审计的公司,无论是遵守内部标准,ISO90001还是法规遵从性要求,都可能需要IT事件管理工具到位。

工具格式

许多服务台系统(例如BMCRemedyIT服务管理套件,VivantioPro和Zendesk)嵌入了IT事件管理工具,但有些服务台系统只是监督IT事件管理的过程,并且不提供实施完全补救的实际能力。

有人问:你希望如何改善企业业务的IT事件管理?其他工具完全集成到服务台系统中,提供用于IT资产管理,根本原因分析和修复的功能,以及使用服务台系统处理提高故障单并向管理员通知正在发生的情况。IT管理供应商,如ManageEngine,BMC软件,SolarWinds,ServiceNow和Cherwell软件,提供全面的事件解决功能,而不是单个故障。

你选择用于安装有效IT事件响应的工具必须具有以下功能:

·了解所管理的IT平台的物理体系结构;

·了解管理下的IT平台的虚拟架构,包括公共云平台;

·完全理解虚拟和物理实体之间的所有依赖关系;

·快速找到发生的IT事件并记录日志;

·对事件进行根本原因分析并记录;

·确定事件是否可以通过自动化方式修复,如果不能,则通过故障单提醒管理员;

·创建补救方法,或向补救系统提供足够的数据,以便可以修复事件;

·在只能进行部分修复的情况下,提供完整修复的故障单;

·记录所做的全部细节,并以可以识别事件的任何重复,并记录结果问题的细节的方式存储它们;

·根据所有记录的信息,为发现的所有事故,包括采取的步骤,结果等提供有意义和有用的报告。

在需要人为干预,例如物理系统失效的情况下,IT事件管理工具应当与允许手动工作的操作工具(例如服务台软件)双向地集成。一旦更换或固定硬件,IT事件管理工具应接收此信息,以使其记录保持最新。如果同样的事件再次发生,工具的记录将有助于确定它是否是地方性的。

组织应该考虑如何最好地实施这些工具,以支持不断变化的IT平台所需的灵活性,确保它涵盖私有的和公共的基础设施。

本文转自d1net(转载)

时间: 2024-10-26 05:27:11

如何处理IT事件管理以避免混乱的相关文章

Javascript前端UI框架Kit使用指南之kitjs事件管理_javascript技巧

从今天这章开始,我将会着重介绍KitJs的事件管理的内容,尽量用浅显的语言给大家揭露主流的js框架是如何在内部实现自己独立的事件管理功能的. (一)普通的Dom事件 我们一般可以通过支持在HTML写上事件 <a onclick="alert(1)">测试</a> 或者取到dom对象后绑定 document.getElementById('a').onclick=function(){alert(1)} 或者二级事件 document.getElementById

android-Android 自己写的一个全局事件管理器,感觉还有点儿问题,提上代码,希望大神们修改修改!!!

问题描述 Android 自己写的一个全局事件管理器,感觉还有点儿问题,提上代码,希望大神们修改修改!!! import java.util.ArrayList; import java.util.Collections; import java.util.LinkedList; import java.util.List; import java.util.Map; import java.util.concurrent.ConcurrentHashMap; import android.os

如何实现高效的事件管理?

你是否遇到过怎么也解决不了的工单?花了几个小时在搜索引擎上查找,逐字逐句地阅读 Stack Overflow(IT 问答网站)上的问题,还会不时地因为沮丧一头栽倒在桌子上.三个小时之后,解决问题已经变成了关乎自尊的事情.去他妈的工作效率!在这种情况下,一个有效的事件管理流程才能让你保持理智. 不要误会--我理解那种希望能够独立解决问题的渴望.我常常因为狂妄.羞愧,或者只是不想打扰别人而陷入这种情况.我对解决问题有一种不正常的执着,但是如果关乎到项目的正常进展,我发现按照事先约定的流程来处理会让大

Google 和 Facebook 如何大规模处理 IT 事件管理 —— 2016 SRE 大会之我见

[编者按]本文作者为 Maria Arbisman,主要介绍 Google 与 Facebook 两大巨头是如何大规模处理 IT 事件管理.文章系国内 ITOM 管理平台 OneAPM 编译呈现. 2016 年举办的可靠性工程师学会大会 (SREcon 2016) 汇聚了来自全球各地的多家企业,探讨企业在继续扩展业务的同时其网站可靠性工程师所面临的各种问题,包括"究竟什么才能成就强大的 SRE 团队"这样的准生存问题.似乎很多公司都会把精干的软件工程师和运营人才拼凑在一起,以此确保网站

Weaveworks增加发布自动化和事件管理

Weaveworks已经发布了针对 Weave Cloud SaaS平台的新特性,其目的是简化容器和微服务的部署.监控和管理,包括:具有历史审计的事件管理.即时搜索和可定制的分析和仪表盘,发布自动化和针对Kubernetes的时间点回滚以及持续交付管道,Kubernetes还发现并解决了资源--容器映射等问题.新的Weave Cloud企业版也已经增加到了该公司的商业产品中,它包括长期数据存储和报表. Weave Cloud是一个托管的云服务,其目标是使开发人员"更容易部署.管理和监控微服务和基

请问:自动生成的web控件如何处理级联事件

问题描述 问题:生成的控件分别是:标签1,下拉列表1,标签2,下拉列表2四个控件.如何挂接下拉列表1的SelectedIndexChanged事件,使得其值又控制下拉列表2的数据显示?比如,下拉列表1绑定的是省,下拉列表2绑定的是市,下拉列表1改变触发其SelectedIndexChanged改变下拉列表2的值. 解决方案 解决方案二:下拉的话可以用JS来实现数值的变化的这样还是不刷新的多好啊至于与后台交互的话正好可以用AJAX这样全省事了我做的一个例子不知道是不是你要的http://www.z

「事件管理」如何让用户体验更加极致?

事件管理是为应用程序提供助力的关键要素. 在打造应用程序时,我们把绝大部分时间都投入于应用程序发布到生产环境的过程中,包括规划蓝图.识别客户需求和要求以及构建自身底蕴和特性.然后是不断循环的开发.测试和质量管理.同时,工程团队也在协同工作,准备环境.之后,这个应用程序终于面世了,我们转而开发另一个应用程序.此时,运营团队担起运营已发布应用的责任.如果这就是应用程序的互动终点,开发团队就错过了大量极具价值的改进反馈.这个时候,事件管理流程就可以发挥关键作用,帮助改进应用程序并最终实现更出色的用户体

Zend Framework 2.0事件管理器(The EventManager)入门教程_php实例

概述 EventManger是一个为以下使用情况设计的组件: 复制代码 代码如下: 实现简单的主题/观察者模式 实现面向切面的设计 实现事件驱动的架构 基本的架构允许你添加和解除指定事件的侦听器,无论是在一个实例基础还是一个共享的集合:触发事件:终止侦听器的执行. 快速入门 通常,你将会在一个类中创建一个EventManager. 复制代码 代码如下: use Zend\EventManager\EventManagerInterface; use Zend\EventManager\Event

《日志管理与分析权威指南》一1.7 安全信息和事件管理(SIEM)

1.7 安全信息和事件管理(SIEM) 日志管理的书籍如果不讨论SIEM,那就是不完整的.SIEM已经形成了一个行业,SIEM工具提供了一种实时分析安全事件的方法.它也提供了报告.可视化和长期存储等机制.我们在这本书里面不会花太多时间在SIEM上,但是第15章将会讨论一些开源的SIEM工具. 下面的两个案例研究会解释日志数据怎样帮助解决现实世界的问题. 后门(Backdoor)是允许用户在不为人知的情况下获得计算机系统访问权的软件或应用程序.它经常被用于恶意目的(Skoudis & Zeltse