应对数据中心常见问题的IT监控策略

作为一个数据中心管理员，如果缺乏更大的视野，很容易陷入到千篇一律的解决问题的工作中。然而，数据中心的问题会从运行的方方面面产生，从操作故障到宏观经济问题。与其等待不可避免的问题出现，管理员应该积极的收集数据、分析趋势、做好应对准备。

本文介绍3个数据中心常见的问题，管理员通过IT监控操作，能够提前做好准备处理这些问题。

操作问题

如果修复BUG的周期长达12个月甚至更长，这清楚的表明了现有系统(例如COBOL)以及造成如此长周期的操作流程应该被替换掉了。数据中心管理员应该考虑将这些已有系统替换，可以替换为一个SaaS服务，也可以是用SQL和C重写。如果替换系统时，公司并没有意愿更改商业流程，那你将付出巨大开销，并且很大比例的软件将会运行得很低效。特定部门迅速增长的系统更改请求，即是一个警告，表明一些员工抗拒改变商业流程。

在操作层面上，管理员最重要的工作，就是收集趋势数据，了解数据中心正在发生什么。如果一项工作需要原先两倍的时间才能执行完，则必须弄清楚为什么会这样。管理员需要随时监控存储、网络和服务器的运行状态，通过这些监控结果分析出系统瓶颈和错误。一个好的IT监控系统将需要花费大量金钱和操作人员时间，但一个坏的靠暴力收集数据的系统会收集过多的数据，造成信息过载，而非找到问题的根源。

更新存储

似乎存储更新的简单解决方法就是当存储池满了后，买更多的硬盘，但选择正确类型的存储器是至关重要的，例如SSD，SATA大容量驱动器，或网络存储器。你需要通过存储监控了解每一层级存储的容量使用率和IOPS趋势。因为目前最好的策略是将较少用到的数据从主存储器层移出，因此判断是否需要购买更多硬盘的方法即是根据自动计算的趋势数据判断哪些数据是较少被访问的。如果你有许多存储数据探针，趋势分析将帮助你将存储驱动器分配到最需要他们的地方去。

企业级存储将变得更为复杂。它已经从简单的主/从硬盘驱动器(HHD)变为一堆SSD和大容量SATA HDD的组成。未来2年将出现非易失性内存规格(NVDIMM)的存储器，3D XPoint非易失性存储器标准(NVMe)的SSD，高容量SATA SSD和越来越多的网络和集群选择，例如虚拟存储区域网络(SAN)，超融合系统和远程直接内存访问链接。当这些技术形成主流后，自动化的IT监控将是唯一的优化运维的方式。

更先进的网络

网络也会造成数据中心一系列的问题。采用模版和策略来控制虚拟局域网建立和关闭将变得更为普遍，并将会被用到业务部门用户的云服务配置中去。

然而这些用户并没有义务做优化网络的工作，当一个新的云服务部署完后，他们仍然可能会继续使用传统的较松散的终端。使用自动化工具找出网络瓶颈对改善用户使用体验将非常有用。监控一条链路潜在的和承载吞吐量的趋势也是非常重要的。这可以揭示出哪些工作流量需要被重新分配，并且验证这些改变是否有效。

随着云和集群编配技术的进步，智能负载平衡方法将变得更为重要，它能够将需要消耗大量资源的应用实例分布到只有较轻网络负载的环境中。服务器还有一些额外的模块需要被监控，包括动态内存(DRAM)和CPU占有率。很快将出现一些云配属工具，能够指出系统热点，并自动化的进行负载平衡。

目前这还是一个正在发展的方向，公司还需要根据历史数据，以每个应用为单位进行平衡决策。任何一个好的IT监控软件都具备当某些值超过门限后报警的功能。找到并使用这些软件，能够帮助快速定位问题。一些工具能够将终端上的一个慢速工作的报警转变为一个秒级更新的应用进程列表中的标记，无需人工从实际系统进程树中去深入分析，例如eG Innovations Enterprice 6.1和PrinterLogic公司的Printer Installer。

总的来说，用好IT监控软件和趋势分析工具，能够使IT管理员能更好的响应数据中心问题，并快速处理现实危机。

本文转自d1net（转载）

时间： 2024-09-20 05:52:46

应对数据中心常见问题的IT监控策略的相关文章

如何应对数据中心突发事件（下）

摘要:数据中心运维团队需能够在没有任何预警的情况下,能够迅速.有效地应对突发状况.对于不可预见的问题,故障.危险可导致人身伤害或宕机的情况,都需有应对措施. 表3 所有事件应根据严重程度分配"等级"级别,第1级是最严重的,第5级是最不严重的级别.事件类的摘要定义如下: 第1类:人身安全此类覆盖其它所有类.对人身造成生命威胁比对IT负载造成的威胁更重要.数据中心运维团队职责是通知应急响应团队,致电911,根据需要协助安全,并将责任传递给安全部门.本类别涵盖火灾.自然灾害.对人类生命的威

防患于未然教你灵活应对数据中心发展

如果企业IT只是跟着当前局势来发展,恐怕会比自觉发展要花更多的钱,所以提前做好计划才能带来回报. 容量规划需观察业务需求配置虚拟化以及改善存储利用,能让组织更好地掌握数据和容量需求.例如,工作流程的自动化有很大帮助,能使IT环境测量容量需求,并启动当前需要的服务器.这种虚拟环境中,工作负载是可以快速启动或停用的,所以管理者容量足以启动需要的新机器,只需使用现有的硬件. 如果环境已经准备好面对利用率的突然提高,这种方案一般不会带来混乱.如果数据中心技术够只能,存储也可以使用类似的方式.自动精简供

如何应对数据中心突发事件

数据中心运维团队需能够在没有任何预警的情况下,能够迅速.有效地应对突发状况.对于不可预见的问题,故障.危险可导致人身伤害或宕机的情况,都需有应对措施.只有做好充分准备,才可以迅速响应,最大限度降低突发状况对数据中心影响,并有效防止事故再次发生.文章描述对关键设备有效应急准备以及响应战略体系.内容由7部分组成,分为3类:紧急响应程序,紧急演习和事件管理. 即使经过专业设计与Tier IV认证的数据中心,也不能保证其100%的可靠性.由于IT系统意外停机,业务中断始终是一种潜在风险.做足准备是一种最

十个应对数据中心宕机的措施与方法

虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心. 根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的.例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件.据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上. 尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断

应对数据中心的能源效率挑战

鉴于刚刚过去的十月份被数据中心业界宣传推广为节能宣传月(Energy Awareness Month),同时世界能源日(World Energy Day)也于10月22日正式举行,能源效率问题再一次成为了许多数据中心管理人员所备受关注的话题.虽然对于跨诸多行业的专业人士来说,能源效率都是一个相当重要的考虑因素,但对其真正引起高度重视的还当属数据中心市场--尤其是云计算供应商.托管服务公司和其他IT服务提供商,他们正在快速开放多租户数据中心(简称MTDC) . 正是由于上述这些企业组织所面临的激烈

应对数据中心断电和力记易有良策

数据中心断电 2016年6月10日,大连电信枢纽楼机房因市电故障,设备突然闪断,并造成部分线路短路,变压器受损引起跳闸,因此导致核心设备出现故障.此种情况造成大连市区.旅顺地区移动网用户手机通话.短信等功能无法正常使用(但4G用户的数据业务正常),同时,导致大连市区.旅顺地区的部分固定电话和宽带业务中断. 意外断电是数据中心或者机房发生率最高的意外事件,据不完全统计,仅在国内每年因为断电故障而导致的数据丢失.数据错误或者业务中断的信息事故几乎每周都在上演.为了防止数据中心或者机房意外断电,增加多

延长数据中心设备使用年限？这些策略来助攻

当你的数据中心面临空间.供能或散热不足的问题--或三者都存在问题时--你有麻烦的事需要考虑了.当你的业务在未来若干年还有很大可能要继续扩展,或当你的公司已经开始讨论最终将一些计算需求转移到云或托管网站时,数据中心的升级问题将变得更具挑战.这些升级的决策都是至关重要,没有一个是可以仓促对待的.总的来说,公司在这方面做出的选择都将是昂贵的--无论是以经费支出还是运维效能衡量都是如此. 但是,一方面公司要规划其长远的数据中心策略,另一方面IT部分仍然要面对短期的任务:保持数据中心运行,切实可靠的满足用

数据中心40G/100G网络升级策略

作为数据中心光纤网络解决方案的设计方,很多时候都会面对网络产品选型的问题,在考虑成本.运维管理.带宽要求.兼容40G/100G等因素制定好方案以后,可能新的标准或技术刚好推出,又要作一番挣扎是否需要改用这些新的产品. 然而,经验告诉我们在一个新的标准出来后,由厂商把产品推出市场到技术成熟,到价格调节到合理的水平,最后到产品普及化,往往需要几年的时间.在平衡各方面的因素和需求后,最妥当的选择通常就是已有完善的行业标准和规范.技术成熟而通用的产品. 10G/40G/100G升级策略现时大部份IDC

节约数据中心空间的5种策略

节约数据中心内的空间可以带来诸多的好处: ·节约空间意味着可以节省开支.在减少了所使用的空间的同时,还可以减少所需的电源.用水.照明和冷却,这便可以节省支出. ·在对空间的消耗进行控制同时,也能确保具有充足的空间来满足未来增长和扩展的需求. ·数据中心节约的空间越多,则具有越多的空间以在设备周围方便的活动,进行设备检查. 我们总结出了五种措施,在数据中心内实施后可以节约空间,同时还可以节省开支. 1. 满配机架机架占用大量的楼面空间,因此重要的一点就是要对其充分的利用.如果将休眠的服务器退役(

猜你喜欢

百度再次告诉我们：站长做好你的用户

相信互联网最近大家谈论最多的就是百度的19亿收购案了,但对于站长来说,大家关注最多的应该就是7月19日的新公告:出售二级域名或目录用于作弊将株连整站的声明.对于这一举措让大家看到了更多,百度越来越注重 ...

3.15打假百度对SEO再度表态

3.15这个特殊的日子,想必大家都应该有所了解,3.15是国际消费者权益,全球都开展打假行动,当然互联网也不会错过这次盛会.百度搜索引擎自然是不会放过不会放过这次机会,准确的说是深谋远虑,强力推出&q ...

解决KVM虚拟机克隆Linux系统后找不到eth0网卡的问题

有时候,会使用KVM/VMware虚拟机的的克隆功能,快速的复制已安装好的系统. 可是克隆完之后,会发现没有eth0网卡. 解决方法: 1.编辑/etc/udev/rules.d/70-persist ...

13个迷人的HTML5和CSS3应用实例

HTML5 和 CSS3 已经在很多的网站编码中实现了应用,HTML5和CSS3给网站设计带来出色效果是之前其他编码语言无法比拟的.现在很多的流行浏览器都已经开始支持HTML5 和 CSS3 ,从而为 ...

在windows系统下IE浏览器设置上网密码的方法

我们在使用IE浏览器收藏一些自己经常使用的网站或者论坛等,在收藏的时候也会保存登陆的账号,如果有人用您的电脑就会被使用,所以我们就为浏览器上把锁.让您的隐私更加安全! 在windows系统下IE浏览器 ...

Excel文件打不开如何解决

Excel文件打不开的解决步骤 1.打开Excel表格,点击工具栏的"文件"→"选项" 2.在Excel选项里点击"高级"接着下拉找到& ...

外网无法访问映射端口怎么办？

网吧路由器端口映射不生效问题,外网无法访问映射的端口,遇到这种情况该怎么办? 网吧路由器端口映射不生效,小编建议按照以下常规思路排查: 一.首先检查内网服务是否正常; 在内网通过服务器的内网IP地址, ...

查找ip地址、查找本地IP、网络IP和对方IP地址的方法

查找本地IP地址针对的是在使用路由器或者交换机等局域网内的用户,最常见的是多人通过路由器共享上网,对于这种情况查找本地IP地址非常简单,首先进入桌面,从左下角的开始里找到运行,在运行对话框中输入cmd ...

对union集合操作理解不足造成的巨大的灾难

朋友和我说发现了oracle union操作的一个bug,他的查询语句如下: SQL> select sum(a1) a1,sum(a2) a2 2 from ( 3 select ...

想哭（WannaCry）勒索病毒的用户防护和处置指南

本文讲的是想哭(WannaCry)勒索病毒的用户防护和处置指南, 一.前言北京时间2017年5月12日晚,勒索软件"WannaCry"感染事件爆发,全球范围内99个国家遭到大规模 ...

sd卡-关于嵌入式设备与SD开绑定

问题描述关于嵌入式设备与SD开绑定向把SD卡与我们自己的设备绑定,需求如下: 1.SD卡中的数据可以通过电脑拷贝出来. 2.SD卡上的数据复制到另一张SD卡里,拿这新卡插入设备则不能使用. 不知道 ...

c语言-C语言里用一个空格代替连续出现的多个空格，然后输出，求解！

问题描述 C语言里用一个空格代替连续出现的多个空格,然后输出,求解! #include int main(){ int c i j; char str[1000]; i = 0;while ((c = ...

基于ffmpeg的视频段截取

问题描述基于ffmpeg的视频段截取如何实现对某个视频中特定时间段的视频截取,在ffmpeg的开发下需要对对数据进行解码编码吗? 解决方案好高深,没有做过,顶你!

原上海国际集团副董事长祝世寅被查溯源

祸起松江地产项目?还是去年年末因污水处理项目超支被国家审计署调查的延续?对于前任副董事长祝世寅的"被调查",上海国际集团行政管理部总经理陈刚态度谨慎:"有关部门还在调查中 ...

CentOS6.5自动化安装LAMP脚本

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 3 ...

MyEclipse8.5，我没招了

问题描述 MyEclipse8.5好像不支持MyEclipse5.5所支持的东西,jsf之类的吧,当打开jsp页面时,提示如图workspace. 第二个问题: request.setAttribut ...

搜索使用 hibernate searche 还是 compass 讨论

最近想在项目中增加搜索功能. 看了半天不知道用哪两个. 1, compass 比较早的 lucence 封装 http://www.compass-project.org/ ...

CI框架入门之MVC简单示例_php实例

本文实例讲述了CI框架入门之MVC简单示例.分享给大家供大家参考,具体如下: 最简单的CI模型: 注意:模型需要用到数据库配置文件在appcation/config.php 这里我们要用到数据库,需 ...

数据类型转换

问题描述 string类型如何转化为uniqueidentifier类型解决方案解决方案二:uniqueidentifier?sqlserver里面的标识列?解决方案三:newGuid(strin ...

数学与美容：美国专利观光，用黄金分割为眉毛造型

都说时尚是个圈,流行趋势每隔几年就会重复--眉毛的造型也不例外,比如下面这张鬼畜的眉毛造型示意图: 来源:eyebrowz.com 来源:eyebrowz.com 如果有一种像数学公式一样的规律, ...

C++普通函数指针与成员函数指针实例解析_C 语言

C++的函数指针(function pointer)是通过指向函数的指针间接调用函数.相信很多人对指向一般函数的函数指针使用的比较多,而对指向类成员函数的函数指针则比较陌生.本文即对C++普通函数指针 ...

asp.net-ASP.NET C#如何获取动态生成控件的值？

问题描述 ASP.NET C#如何获取动态生成控件的值? 假如我在后台动态生成了控件: TextBox textbox=new TextBox(); textbox.ID="textbox1 ...

求助httpwatch-httpwatch result为什么总显示*啊！

问题描述 httpwatch result为什么总显示*啊! httpwatch result为什么总显示啊!IE 的浏览器现在真是急坏我了! 解决方案参考:http://blog.csdn.ne ...

与 Linux 一起学习：学习打字

"与 Linux 一起学习"的所有文章: 与 Linux 一起学习:学习打字与 Linux 一起学习:学习物理与 Linux 一起学习:学习音乐与 Linux 一起学习:学习 ...

php支持断点续传、分块下载的类_php技巧

本文是为大家分享php支持断点续传.分块下载的类,供大家参考,具体内容如下 <?php /** * User: djunny * Date: 2016-04-29 * Time: 17:18 * ...

asp.net 面试+笔试题目第1/2页_实用技巧

一名入门的asp.net程序员应该掌握的知识: (1)熟练使用Sql Server中企业管理器.查询分析器和事件探查器,能熟练编写T-SQL.存储过程.用户自定义函数.视图.触发器: (2)了解ASP ...

仅Firefox中链接A无法实现模拟点击以触发其默认行为_javascript技巧

而标准的事件触发可以使用dispatchEvent方法.但现在FF5无法触发了A的默认行为了.如下复制代码代码如下: <!doctype html> <html> < ...

php 定义404页面方法

*/ @header("http/1.1 404 not found"); @header("status: 404 not found"); echo 'ec ...

上传图片、附件

问题描述我想请问在论坛中添加上传图片.添加附件的功能怎样做,最好能有完整的代码,我在网上搜过,但都不知所云.呵呵,只能麻烦各位耐心教教我了解决方案解决方案二:usingSystem;usingS ...

想要知道如何削弱噪音，把你的声音让大众听到吗?

想要知道如何削弱噪音,把你的声音让大众听到吗?上个月,Chipotle在旗下三分之一的餐馆暂停了猪肉销售,这家快餐连锁店并不仅仅是为了惩罚他们的供应商,同时也是向大众传递他们注重食品质量的信息.营销公 ...

热搜