应对数据中心常见问题的IT监控策略

作为一个数据中心管理员,如果缺乏更大的视野,很容易陷入到千篇一律的解决问题的工作中。然而,数据中心的问题会从运行的方方面面产生,从操作故障到宏观经济问题。与其等待不可避免的问题出现,管理员应该积极的收集数据、分析趋势、做好应对准备。

本文介绍3个数据中心常见的问题,管理员通过IT监控操作,能够提前做好准备处理这些问题。

操作问题

如果修复BUG的周期长达12个月甚至更长,这清楚的表明了现有系统(例如COBOL)以及造成如此长周期的操作流程应该被替换掉了。数据中心管理员应该考虑将这些已有系统替换,可以替换为一个SaaS服务,也可以是用SQL和C重写。如果替换系统时,公司并没有意愿更改商业流程,那你将付出巨大开销,并且很大比例的软件将会运行得很低效。特定部门迅速增长的系统更改请求,即是一个警告,表明一些员工抗拒改变商业流程。

在操作层面上,管理员最重要的工作,就是收集趋势数据,了解数据中心正在发生什么。如果一项工作需要原先两倍的时间才能执行完,则必须弄清楚为什么会这样。管理员需要随时监控存储、网络和服务器的运行状态,通过这些监控结果分析出系统瓶颈和错误。一个好的IT监控系统将需要花费大量金钱和操作人员时间,但一个坏的靠暴力收集数据的系统会收集过多的数据,造成信息过载,而非找到问题的根源。

更新存储

似乎存储更新的简单解决方法就是当存储池满了后,买更多的硬盘,但选择正确类型的存储器是至关重要的,例如SSD,SATA大容量驱动器,或网络存储器。你需要通过存储监控了解每一层级存储的容量使用率和IOPS趋势。因为目前最好的策略是将较少用到的数据从主存储器层移出,因此判断是否需要购买更多硬盘的方法即是根据自动计算的趋势数据判断哪些数据是较少被访问的。如果你有许多存储数据探针,趋势分析将帮助你将存储驱动器分配到最需要他们的地方去。

企业级存储将变得更为复杂。它已经从简单的主/从硬盘驱动器(HHD)变为一堆SSD和大容量SATA HDD的组成。未来2年将出现非易失性内存规格(NVDIMM)的存储器,3D XPoint非易失性存储器标准(NVMe)的SSD,高容量SATA SSD和越来越多的网络和集群选择,例如虚拟存储区域网络(SAN),超融合系统和远程直接内存访问链接。当这些技术形成主流后,自动化的IT监控将是唯一的优化运维的方式。

更先进的网络

网络也会造成数据中心一系列的问题。采用模版和策略来控制虚拟局域网建立和关闭将变得更为普遍,并将会被用到业务部门用户的云服务配置中去。

然而这些用户并没有义务做优化网络的工作,当一个新的云服务部署完后,他们仍然可能会继续使用传统的较松散的终端。使用自动化工具找出网络瓶颈对改善用户使用体验将非常有用。 监控一条链路潜在的和承载吞吐量的趋势也是非常重要的。这可以揭示出哪些工作流量需要被重新分配,并且验证这些改变是否有效。

随着云和集群编配技术的进步,智能负载平衡方法将变得更为重要,它能够将需要消耗大量资源的应用实例分布到只有较轻网络负载的环境中。 服务器还有一些额外的模块需要被监控,包括动态内存(DRAM)和CPU占有率。很快将出现一些云配属工具,能够指出系统热点,并自动化的进行负载平衡。

目前这还是一个正在发展的方向,公司还需要根据历史数据,以每个应用为单位进行平衡决策。 任何一个好的IT监控软件都具备当某些值超过门限后报警的功能。找到并使用这些软件,能够帮助快速定位问题。一些工具能够将终端上的一个慢速工作的报警转变为一个秒级更新的应用进程列表中的标记,无需人工从实际系统进程树中去深入分析,例如eG Innovations Enterprice 6.1和PrinterLogic公司的Printer Installer。

总的来说,用好IT监控软件和趋势分析工具,能够使IT管理员能更好的响应数据中心问题,并快速处理现实危机。

本文转自d1net(转载)

时间: 2024-09-20 05:52:46

应对数据中心常见问题的IT监控策略的相关文章

如何应对数据中心突发事件(下)

摘要:数据中心运维团队需能够在没有任何预警的情况下,能够迅速.有效地应对突发状况.对于不可预见的问题,故障.危险可导致人身伤害或宕机的情况,都需有应对措施. 表3 所有事件应根据严重程度分配"等级"级别,第1级是最严重的,第5级是最不严重的级别.事件类的摘要定义如下: 第1类:人身安全 此类覆盖其它所有类.对人身造成生命威胁比对IT负载造成的威胁更重要.数据中心运维团队职责是通知应急响应团队,致电911,根据需要协助安全,并将责任传递给安全部门.本类别涵盖火灾.自然灾害.对人类生命的威

防患于未然 教你灵活应对数据中心发展

如果企业IT只是跟着当前局势来发展,恐怕会比自觉发展要花更多的钱,所以提前做好计划才能带来回报. 容量规划需观察业务需求 配置虚拟化以及改善存储利用,能让组织更好地掌握数据和容量需求.例如,工作流程的自动化有很大帮助,能使IT环境测量容量需求,并启动当前需要的服务器.这种虚拟环境中,工作负载是可以快速启动或停用的,所以管理者容量足以启动需要的新机器,只需使用现有的硬件. 如果环境已经准备好面对利用率的突然提高,这种方案一般不会带来混乱.如果数据中心技术够只能,存储也可以使用类似的方式.自动精简供

如何应对数据中心突发事件

数据中心运维团队需能够在没有任何预警的情况下,能够迅速.有效地应对突发状况.对于不可预见的问题,故障.危险可导致人身伤害或宕机的情况,都需有应对措施.只有做好充分准备,才可以迅速响应,最大限度降低突发状况对数据中心影响,并有效防止事故再次发生.文章描述对关键设备有效应急准备以及响应战略体系.内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理. 即使经过专业设计与Tier IV认证的数据中心,也不能保证其100%的可靠性.由于IT系统意外停机,业务中断始终是一种潜在风险.做足准备是一种最

十个应对数据中心宕机的措施与方法

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心. 根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的.例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件.据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上. 尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断

应对数据中心的能源效率挑战

鉴于刚刚过去的十月份被数据中心业界宣传推广为节能宣传月(Energy Awareness Month),同时世界能源日(World Energy Day)也于10月22日正式举行,能源效率问题再一次成为了许多数据中心管理人员所备受关注的话题.虽然对于跨诸多行业的专业人士来说,能源效率都是一个相当重要的考虑因素,但对其真正引起高度重视的还当属数据中心市场--尤其是云计算供应商.托管服务公司和其他IT服务提供商,他们正在快速开放多租户数据中心(简称MTDC) . 正是由于上述这些企业组织所面临的激烈

应对数据中心断电 和力记易有良策

数据中心断电 2016年6月10日,大连电信枢纽楼机房因市电故障,设备突然闪断,并造成部分线路短路,变压器受损引起跳闸,因此导致核心设备出现故障.此种情况造成大连市区.旅顺地区移动网用户手机通话.短信等功能无法正常使用(但4G用户的数据业务正常),同时,导致大连市区.旅顺地区的部分固定电话和宽带业务中断. 意外断电是数据中心或者机房发生率最高的意外事件,据不完全统计,仅在国内每年因为断电故障而导致的数据丢失.数据错误或者业务中断的信息事故几乎每周都在上演.为了防止数据中心或者机房意外断电,增加多

延长数据中心设备使用年限?这些策略来助攻

当你的数据中心面临空间.供能或散热不足的问题--或三者都存在问题时--你有麻烦的事需要考虑了.当你的业务在未来若干年还有很大可能要继续扩展,或当你的公司已经开始讨论最终将一些计算需求转移到云或托管网站时,数据中心的升级问题将变得更具挑战.这些升级的决策都是至关重要,没有一个是可以仓促对待的.总的来说,公司在这方面做出的选择都将是昂贵的--无论是以经费支出还是运维效能衡量都是如此. 但是,一方面公司要规划其长远的数据中心策略,另一方面IT部分仍然要面对短期的任务:保持数据中心运行,切实可靠的满足用

数据中心40G/100G网络升级策略

作为数据中心光纤网络解决方案的设计方,很多时候都会面对网络产品选型的问题,在考虑成本.运维管理.带宽要求.兼容40G/100G等因素制定好方案以后,可能新的标准或技术刚好推出,又要作一番挣扎是否需要改用这些新的产品. 然而,经验告诉我们在一个新的标准出来后,由厂商把产品推出市场到技术成熟,到价格调节到合理的水平,最后到产品普及化,往往需要几年的时间.在平衡各方面的因素和需求后,最妥当的选择通常就是已有完善的行业标准和规范.技术成熟而通用的产品. 10G/40G/100G升级策略 现时大部份IDC

节约数据中心空间的5种策略

节约数据中心内的空间可以带来诸多的好处: ·节约空间意味着可以节省开支.在减少了所使用的空间的同时,还可以减少所需的电源.用水.照明和冷却,这便可以节省支出. ·在对空间的消耗进行控制同时,也能确保具有充足的空间来满足未来增长和扩展的需求. ·数据中心节约的空间越多,则具有越多的空间以在 设备周围方便的活动,进行设备检查. 我们总结出了五种措施,在数据中心内实施后可以节约空间,同时还可以节省开支. 1. 满配机架机架占用大量的楼面空间,因此重要的一点就是要对其充分的利用.如果将休眠的服务器退役(