创建数据中心监控方案的最佳实践方案

本文中,我们将略过关于IT更新的一系列统计数据和趋势的简介,而把关注焦点聚焦于您的数据中心的监控实践方案。

我曾经有幸能够有机会与各种类型的数据中心环境合作过。是的,这些数据中心的环境类型都各有不同。一些数据中心采用电源HPC工作负载,而其他数据中心则使用云工作负载。然后,还有一些数据中心充当了存储孤岛和存储库,以及一些数据中心是私有的托管合作伙伴。每家企业组织都可能有不同类型的要求,设备和布局。

然而,现代数据中心的关键属性需要匹配最佳的监测机制。以下,我将为广大读者朋友们介绍一些这方面的最佳实践方案:

数据中心操作环境监测的主要监测参数

温度。这在任何数据中心操作环境中都是既定的参数。在任何情况下,均不允许服务器或服务器机架在超出其工作温度以外的范围操作运行。确保不断检查ASHRAE,以不断优化实现最佳的操作运营温度。而操作运营环境温度是会改变的。为了获得更详细的信息,数据中心管理人员需要监控并查看机架的排气指标、内部温度、甚至服务器的温度。对温度控制机制的可见度越高,工程师们就可以在相关潜在问题变得严重之前及时响应,以尽快解决问题。

湿度和水控制。就像监控操作环境的温度一样,数据中心内的关键系统必须进行湿度监控。有多种方法来检查环境中的湿度。一般来说,这些检查都是在机架内部和机架外部的级别。在所有的监控情况下,监控的级别水平都应该保持稳定,并且为了能够快速反应,数据中心操作运营环境将需要考虑在各个战略位置都部署多个传感器。

通道环境控制。这意味着对温度、湿度、气流和冷热通道的监测。根据数据中心操作运营环境的规模大小,将会分别设计热/冷通道。观察这些数据中心通道的温度范围可以帮助数据中心管理人员快速发现问题,进而提高运营效率。

静电。操作运营环境内的静电监测传感器有助于帮助数据中心管理人员掌握是否有附带了大量静电的物体设备进入了数据中心设施。静电对数据中心的操作运营环境是非常有害的,因此管理这些传感器也是相当重要的。

数据中心的访问。从安全的角度来来看,许多企业组织都正在部署数据中心环境和机架入口传感器。当一台机架未经正确配置安装时,这些传感器将向管理人员发送警报。更高级的操作运营环境实际上将激活指向已经打开的确切机架上的摄像机系统。

使用传感器和传感器技术

耐用性。大数据中心已经开始依靠其环境中的传感器来提供关于其数据中心健康运行状况的一些最重要的数据了。鉴于此,请务必要记住的一项规则是:没有一任何一款传感器能够确保永远有效的工作。传感器也会发生故障,并可能随时发生任何级别的故障。这就是为什么拥有冗余传感器环境是非常重要的原因所在了。智能化的数据中心监控工具将实际观察操作环境中的所有传感器。自动恢复过程可以被配置为同时监控多台传感器,以防万一出现故障失败。这将有助于消除传感器故障时的误报。鉴于在大型数据中心内部署了这么多的传感器点,数据中心管理人员必须建立适当的警报机制。如果传感器发生故障,则必须立即通知相关的责任人。如果设备开始发布不正确的信息或触发假警报,则情况处理相同。数据中心传感器环境的主动测试和维护将有助于减少发生故障的机会。然而,一套良好的管理系统将有助于缓解传感器发生故障的麻烦。请务必记住,今天的企业监控系统的建立是用于持久性监控的。管理员要围绕数据中心环境信息,依靠这些数据做出非常重要的决定。具有冗余的传感器架构将有助于数据中心中的一部分故障传感器。

传感器的安置。在部署数据中心传感器时,考虑操作运营环境的规模大小是非常重要的。由于每家企业的操作运营环境都是独一无二的,故而没有太多的工具可以“自动的”为您安置传感器。而这便是一家好的合作伙伴可以真正发挥他们的帮助作用的时候了。 HVAC专业人员和数据中心监控/环境设计专家们可以帮助企业组织规划出传感器部署的最佳策略。从更高级的角度看,数据中心管理人员应该考虑在四个主 要领域部署传感器。这些四个主 要领域包括:

机架级的监控。为了获得更多信息和冗余,数据中心管理人员可以在机架中部署更多的传感器。然而,传感器应位于机架的顶部,以便监测排出的热空气,同时还要安置在机架的底部,以监测地板的冷却度量指标。

操作环境室的监控。这是安置监控室内湿度和温度的传感器的非常重要的地方。对于大型数据中心操作环境而言,我们建议将传感器安置在热区或距离冷却单元最远的区域。

机房空调/处理器监控。这些传感器将帮助识别与冷却单元相关的直接故障。其应该被安置在靠近交流设备的地方。

湿度监测。根据数据中心的操作环境,建议在服务器机房外墙以及高架地板下方安置泄漏传感器。为了检测来自冷却装置的湿度,应该在冷却装置周围放置水传感器,以监测可能发生的漏水情况。如果使用液冷系统,请采取额外的预防措施。

对于为特别业务案例提供服务的数据中心的要求将始终是唯一的。创建良好的监控最佳实践方案需要充分了解数据中心的业务,数据中心的设计建造要求和未来的业务需求。根据您企业业务的特定用例,您可能需要在敏感区域进行其他方面的监控。同样,敏感的安全区域可能需要更多的物理监控。请务必记住,一切都要围绕着您数据中心的业务要求进行设计,以便支持您企业数据中心的健康运营和业务的发展。

关于作者

本文作者Bill Kleyman是MTM Technologies公司的战略与创新副总裁。Bill是一位热心的技术专家,在数据中心设计,管理和部署方面有丰富的经验。 他在架构领域的工作内容包括大型虚拟化和云部署,以及企业网络设计和部署实施。Bill喜欢关于技术方面的写作,包括博客和同事间的技术分享。Bill是MTM Technologies公司的战略与创新副总裁,他负责企业内部各部门之间的互动,帮助通过规划IT战略来与企业直接的业务目标保持一致。Bill所撰写的白皮书、专栏文章、视频博客和播客曾先后发表于InformationWeek网站、NetworkComputing网站、TechTarget网站、《华尔街日报》、ZDNet网站、Slashdot等等。

本文转自d1net(转载)

时间: 2024-11-01 22:59:22

创建数据中心监控方案的最佳实践方案的相关文章

提高数据中心效率、可用性和容量的五项最佳实践方案

数据中心可以说是任何企业中最具活力和最为关键的操作之一.近年来,随着数据中心的密度和容量呈现稳步增长,其复杂性和安全风险也在不断增加,资源日趋紧张,进一步为其相关设备的性能带来了不良的影响.根据一项针对数据中心行业的停机中断研究结果显示,数据中心的任何类型的停机中断的平均成本为389,879欧元,而部分的停机中断的平均成本为199,103欧元.完全停机中断的成本超过524,464欧元.鉴于停机中断的成本如此之高,使得IT容量的可用性通常是评估数据中心的最重要的指标.然而,在今天,数据中心还必须同

数据中心效率:40%的改进是通过最佳实践方案

显然,美国能源部需要提出更好的关于数据中心的建筑倡议,以便使得数据中心及其合作伙伴能够与该机构共同致力于降低能源消耗.该机构的两大方案包括更好的建筑挑战,这需要来自企业的承诺:在10年内,减少20%的数据中心总能耗;以及更好的数据中心建筑效率加速器,该方案要求企业承诺在五年内减少一处甚至多处数据中心能源消耗的25%. 该计划的核心是提高数据中心基础设施的效率,其所使用的能源至少与数据处理.网络和存储设备一样多.对于基础设施所需的能源,建筑物冷却占了绝大部分.根据美国能源部的统计数据显示,数据中心

企业安全的最佳实践方案

在本文中,我们将为广大读者诸君介绍美国思杰公司是如何借助对于应用程序和数据在任何地点.网络和设备的访问控制,以帮助企业客户在实现风险管控的同时,授权业务移动性的. 现如今,企业的IT和安全管理领导人们正面临着将业务安全风险降低到可接受的水平的同时,确保易用性和生产力的挑战.企业员工需要能够以自己最为舒适的方式来工作--即能够在任何地方.借助任何网络或设备顺畅工作,而不会因任何过度的限制或复杂的用户体验感到沮丧.与此同时,保护企业应用程序和数据避免因安全威胁而发生泄露.防止丢失和被盗,并确保完全符

帮助企业做好MaxCompute大数据平台成本优化的最佳实践

阿里云大数据计算服务MaxCompute通过灵活性.简单性和创新为您企业的业务环境带来了变革,但是您企业是否通过其实现了原本预期的节省成本的目标呢?本文中,我们将为广大读者诸君介绍优化您企业MaxCompute开销的一些关键性的策略. 自从MaxCompute于2010年进入市场以来,计算服务MaxCompute就已然永远地改变了整个IT世界了.尽管其价格优势已经领先业界了,但仍然有许多企业客户了解到,迁移到公共云服务并不总是能够帮助他们实现预期的成本节约的目标. 这并不意味着迁移到公共云服务是

数据中心监控自动化中的两个常见问题

如今,数据中心越来越趋于自动化,并已成为数据中心良好运营的强大力量.以下列出在数据中心监控自动化中经常出现的两个主要问题. 问题1:房间里的大象 "房间里的大象"是指人们私密生活和公共生活中对于某些显而易见的事实,集体保持沉默的社会现象.人们在进一步深入自动化之前,无论是自动发现,报告交付或警报触发操作,必须做出一个关键点:在某些方面,它被称为DPR周期.DPR代表检测,预防和响应. 警报是工作人员在发生错误时捕获错误的方式,但是由数据中心工作人员来决定它们发生的原因,并找到一种防止错

数据中心应该采用哪种制冷方案

数据中心制冷有多种选择,从冷热通道隔离.自冷却机柜到利用外部空气,这些方案各有利弊. 数据中心应该采用哪种制冷方案 为确定数据中心应该采用哪种制冷方案,需要根据需求权衡各个方案的优缺点.冷热通道隔离非常重要吗?节省能源吗?设计时具备灵活性吗? 冷热通道隔离 冷热通道隔离意味着将流入数据中心的冷空气与排出去的热空气进行隔离.冷热通道隔离需要专门的窗帘.盲板.墙壁或者其他设计来隔离冷热通道.实现效果取决于预算.基础设施设计以及项目规划. 优点:隔离避免了冷热空气混合,空气调节系统达到目标温度的负荷比

打造立体化监控体系的最佳实践——分布式调用跟踪和监控实践

摘要: 本文将从分布式系统调用的复杂现状说起,具体分析调用链的三大使用场景,以及调用链的最佳实践,简述如何将调用链作为排查问题的核心,通过其可以将各类数据关联在一起,提高问题排查能力. [最新快讯]EDAS上线方法追踪新特性,打通应用诊断的"最后一公里". 1. 分布式调用系统的现状 当前,随着互联网架构的扩张,分布式系统变得日趋复杂,越来越多的组件开始走向分布式化,如微服务.消息收发.分布式数据库.分布式缓存.分布式对象存储.跨域调用,这些组件共同构成了繁杂的分布式网络. 如上图右侧

打造立体化监控体系的最佳实践

1. 分布式调用系统的现状 当前,随着互联网架构的扩张,分布式系统变得日趋复杂,越来越多的组件开始走向分布式化,如微服务.消息收发.分布式数据库.分布式缓存.分布式对象存储.跨域调用,这些组件共同构成了繁杂的分布式网络. 如上图右侧所示,当应用A发出某个请求时,其背后可能有数十个甚至更多的服务被调用,可谓是"牵一发而动全身". 如果将分布式系统比作高速公路网,每个前端的请求就相当于高速上行驶的车辆,而处理请求的应用就是高速上的收费站,在收费站上将车辆通行信息记录成日志,包括时间.车牌.

实时的数据中心监控:全面的DCIM解决方案创造了丰富的连通环境

数据中心基础设施管理(DCIM)是一种新兴的数据中心管理形式,其弥合了传统设施系统和信息技术(IT)系统之间的差距,从而为数据中心运营商们提供了从每个系统所收集到的数据的整合. 虽然 "DCIM"这一缩写早已经成为数据中心管理词典的一部分了.但是,在开发真正全面的软件应用程序解决方案的紧迫感方面却仍然是一种比较新兴的现象.随着数据中心的管理效率和成本的增加,这些专业设施的足迹日益增加,以便应对新技术的爆炸式增长,包括手持设备和平板电脑的增长,而这一点也越来越受到重视.云计算和虚拟化技术