如何降低数据中心运行故障

2015年8月6日晚上,部分QQ用户出现无法登录故障,这直接影响到了腾讯旗下多款产品的连接使用,直到22:30左右才恢复正常,事后据腾讯确认是因QQ服务机房故障而导致。而在此之前的半年多时间里,多家知名互联网企业因服务器、网络设备产生的大大小小各种故障已有数十例。对于像互联网公司这样依赖优质的网络体验而生存的企业,如果出现故障,其产生的影响和后果非常严重。

 

既然网络故障带来的负面作用如此之大,可如何消除这种故障呢?没有任何一家企业愿意出现这种故障,而出了故障则说明其数据中心必定存在健康问题和隐患。因此我们有必要仔细分析数据中心运行故障高发的成因,选择更加完善的监控管理方案,以保证数据中心的健壮稳定。

数据中心作为提供各种数据处理的核心场所,对于IT系统的重要性不言而喻。尤其是对于互联网公司等,包括核心业务在内的所有网络业务都是通过其数据中心提供访问和处理的,数据中心的稳定运行是这些业务正常运行的前提。试想一个电商企业的数据中心如果中断1小时,可能会带来上千万元的损失,而在市场竞争激烈的当下,业务的中断除了遭受经济损失之外,还会流失大量的客户,这对企业未来的发展是非常不利的,所以提供连续的优质网络服务对于一个互联网企业至关重要。

当然,企业也清楚这点,每年花在数据中心上的投入也非常大,除了人员方面的投入,基础设施的建设投入占据了最大的比重,但是到头来还是会出现这样那样的故障,为什么?这很大程度上是由于企业业务增长太快,而导致数据中心的负担愈加沉重,在不断扩容或者改造过程中比较仓促,隐藏着不少安全隐患,即便是像腾讯这样的大型企业也在所难免。高速扩张的结果就是系统架构总是要改变,从而带来运维管理上的局促,随着业务量的增长,危机四伏。

数据中心历来都是一个对新技术渴求最强烈之地,都希望可以引入先进的技术和设备,从而更好地为业务服务,同时在行业竞争中不落后于人。不过,引入新技术虽然解决了原有系统存在的问题,为业务提供了有效的支撑,但往往给数据中心带来了新的运行风险。因为新技术、新系统可能还有很多不够完善的地方,如果运维管理工作没有跟上,则运行起来就容易出问题。为了保证业务的长期稳定运行,数据中心从应用、服务器、网络、防火墙、物理链路等等都要有生产系统和备份系统,这也会将数据中心设计得过于复杂,实际运维起来非常麻烦,一旦出现问题反而不知道问题出在哪里。因此,再好的技术,也还是会出故障。所以必须要加强对数据中心的监控管理,如此才能降低数据中心出现故障的风险。

实际上,绝大部分数据中心都无法做到常年业务不中断,但是尽可能地减少故障,确保其运行过程中随时监控管理,预、告警任何错误故障,不放过任何相似的问题,将风险降至最低,这也是监控管理软件的最大使命。

作者:何妍 

来源:51CTO

时间: 2024-10-22 13:12:45

如何降低数据中心运行故障的相关文章

降低数据中心能耗的六大环节从主要能源着手

数据中心能耗问题由来已久,各路神仙一直在各显神灵,以求降低数据中心能源消耗的问题,但是收效甚微,缘于数据中心规模扩张的速度远超出人们的想象.根据能量守恒定律,世界上的能源数量是固定的,而数据中心扩张的越快消耗的能源也越来越多,部署降低能耗的方法只是减缓能源耗尽的速度而已.然而,在没有出现新的替代能源之前,降低能耗消耗依然是最为急需解决的技术难题之一.纵览当今的数据中心技术,关于降低能耗的方法不胜枚举,让人看得眼花缭乱.其实,结合数据中心能耗的特点,电能是数据中心使用的最主要能源,数据中心里的设备

如何降低数据中心宕机事件的影响

大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要.对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕机事件时,他们就会开始抱怨甚至投诉. 以最近的航空数据中心宕机事件为例,如美国达美航空.西南航空和英国航空公司,由于一个简单的电气故障或不当的维修程序,导致服务器遭到灾难性损坏,航空公司损失数亿美元,数以万计的乘客被滞留在全球各地的机场. 这些大规模的宕机事件总能成为新闻头条,而且数据中心宕机事件比

降低数据中心的复杂性:运用基于策略的管理

策略能够让IT团队更有效地管理虚拟机的可用性.安全性以及其他组件.企业可以采取本文提及的策略来降低数据中心 的复杂性. 随着数据中心的不断发展,变得越来越复杂,使用软件来代替人员管理这种复杂性更加有效的同时,也更具性价比. 因此,基于策略的管理已成为数据中心管理员们的基本技能.无论您是使用超级融合系统还是正在转换为软件定义模式,基于策略的管理的目标是降低人工工作量并使用策略来管理您的IT基础设施. 以下是有关如何在您的数据中心开始采用基于策略管理方式的一些提示. 不同的数据中心策略适用于不同目的

互联网数据中心频频故障给我们带来的启示

最近互联网故障是一件接着一件,仅在5月就发生了多起.网易的骨干网遇到攻击导致其游戏业务受到严重影响,由于传输光纤被挖断导致支付宝中断2小时,紧接着携程网由于人员误操作导致网络中断近12小时.从这些事件中不难看出,所有故障的产生都来自人为或者外部环境因素所导致,而不是数据中心设备本身.根据以往的统计数据也可以看出,数据中心发生的故障原因中人为因素占了80%.很多故障都是可以通过加强对人的管理而避免的,而并不是技术本身,导致数据中心故障的因素绝大部分来自外部而非自身,所以要保证数据中心稳定不间断运行

数据中心网络故障维护策略分析

数据中心是由大量电子设备搭建起来的复杂信息系统,这些电子设备出现各种各样的故障是不可避免的,尤其是网络设备,就算是谷歌.脸谱.亚马逊等这些互联网巨头的数据中心也难免会发生不少故障.一旦网络设备出现故障,往往大面积的业务就会受到影响.一方面我们要增加网络设计的健壮性,关键节点部署冗余备份:另一方面要优化处理网络故障的手段,当出现网络故障时,如何快速恢复.并定位问题,消除隐患都需要诸多专业技术知识和丰富的网络经验,同时制定完善的故障处理流程,这样能大大缩短故障恢复的时间,同时还能有效找到故障原因,避

8种有效降低数据中心能耗的方法

  随着新一代数据中心建设浪潮的兴起,随着企业机房里服务器的密度越来越高.数量越来越大,电力消耗和散热能力正在成为企业IT管理员重点关注的问题,数据中心所消耗的电力以及要冷却这些被转化为热量的电力消耗都达到了越来越高的水平.电力的巨大消耗带来各种严峻问题,巨额的电力成本会让企业的整体成本上升,并且,相对而言在一段时期内任何一个数据中心的电力供给都是有限的,所以即便是通过增加硬件来力求平衡,最终页仍然要面对电力供给与占地面积的问题,在日益倡导绿色环保和严格审核的低碳时代,降低数据中心的能耗极为必要

云计算时代降低数据中心能耗的若干措施

[天极网服务器频道4月18日消息]数据中心降低能耗并不等于就需要牺牲硬件设施的可靠性和性能.更换旧硬件.升级数据中心冷却系统,都可以极大改善可靠性和性能.还可以通过虚拟化和整合,并考虑将某些任务外包给其它设施或云,进一步降低能源成本. 虚拟化提高数据中心运行效率 提高能源利用效率的最有效方式之一就是使用更少的服务器执行计算,例如使用http://www.aliyun.com/zixun/aggregation/13883.html">虚拟化技术将多个应用程序合并到单个服务器上同时运行.服务

ASHRAE新标准促进降低数据中心能源消耗

近期的"商业建筑能源消费调查"(CBECS)显示,与商业建筑没有数据中心的相比,有数据中心的商业建筑,有着更密集的运算,需要更多的冷却能力与电力 能源(每平方英尺消耗). 这并不意外,因为数据中心需要不间断运行,这就意味着无论是对冷却系统,还是电力系统都需要持续运行. 能源消耗的规模可能更令人震惊,据估计,数据中心空间消耗的能源是标准办公空间消耗的100-200倍. 随着数据中心发展需要越来越多的电力能源,面临的压力就是考虑节能设计措施,从而降低运营成本.能源消耗. 新标准 鉴于日益对

降低数据中心能源消耗

降低能源消耗成为数据中心运维经理首要任务 ! 近期的"商业建筑能源消费调查"(CBECS)显示,与商业建筑没有数据中心的相比,有数据中心的商业建筑,有着更密集的运算,需要更多的冷却能力与电力 能源(每平方英尺消耗). 这并不意外,因为数据中心需要不间断运行,这就意味着无论是对冷却系统,还是电力系统都需要持续运行. 能源消耗的规模可能更令人震惊,据估计,数据中心空间消耗的能源是标准办公空间消耗的100-200倍. 随着数据中心发展需要越来越多的电力能源,面临的压力就是考虑节能设计措施,从