健康与风险:数据中心容量管理的新模式

有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往往都非常的复杂。而且,在当今加速发展的商业世界中,这种管理往往无法有效实施。优先级的改变、日益增加的复杂性和可扩展的云基础架构使得传统的容量管理模式已经不太奏效。在新技术的支持下,由创新的IT领导者推动,新的容量能力管理模式正在出现。这种新的模式将IT资源使用视为对业务有意义的,使用自动化和分析来管理复杂性,并减少人工操作。

在本文中,我们将与广大读者诸君共同讨论如何将容量管理中所涉及到的复杂监控、分析和预测缩减为一项健康的服务(当前绩效)指标,以及服务风险(未来绩效)的一个指标,使所有利益相关方更易于管理和更具可视化。

容量管理的战略优势

  容量管理平衡成本和风险

在简化的意义上,IT容量管理是平衡业务服务的成本和性能的基础,其中基础设施的分配和配置是支点。如果您企业的基础设施配置不当或不足以支持业务需求,可能会发生长时间的响应时间问题和中断,从而使业务损失高达上百万。

避免这种情况的一种典型方法是过度配置基础设施,即估计所需要的容量,并使之翻一番。据估计,多达50%的云基础设施是未使用的,这种现象在物理存储中甚至更多。过度配置浪费了大量的硬件,软件许可和管理成本。而诀窍就在于合理化您企业的基础设施规模,以满足当前的需求,并确切的知道何时何地需要增加多少额外的容量。

为了有效优化业务服务,容量管理过程由四个主要步骤组成:

1、数据收集和管理。收集您企业环境中每款应用程序、服务和系统的详细信息和相关的性能数据。

2、数据分析。分析数据以确定服务的健康状况,潜在的性能问题以及这些问题的根本原因,以便您可以解决这些问题。

3、预测。准确预测资源短缺何时何地会发生,这样才能避免资源短缺。

4、提交可执行的信息。为各利益相关方:IT分析师、服务经理和业务领导提供他们可以据此做出决策所需的信息。

使IT变得如此具有挑战性的是,鉴于动态发展的技术,不断变化的业务需求和需求的增长都增加了复杂性,使得IT环境不断变化。时间一直是性能问题的本质,但是IT人员分散在各种任务和项目中,减少了确保服务交付的时间。最后,容量管理专长越来越少。根据一家业界领先的分析公司Research In Action预测,到2020年,容量和性能管理的技能缺乏将成为75%的企业增长的主要制约因素或风险。

或许正是由于这些挑战的存在,使得许多技术领导者认为,容量管理是一大竞争优势,在未来几年将会变得更加如此。据Research In Action预测,到2020年,35%的企业将使用容量管理工具来获得竞争优势(而今天的比例则为20%)。

有效的容量管理所带来的竞争优势:

1、减少了员工致力于提供高可用性和一致的服务所花费的时间

2、减少任务关键型应用程序的停机时间和瓶颈

3、优化硬件,软件和云存储投资

4、更有效的业务规划,使IT投资与业务目标保持一致

5、保护企业品牌声誉

借助自动化管理复杂性

近年来,大部分已经成功的部署了容量管理的IT企业均使用了分析和自动化。这种方法的优点是速度和准确性,即使在非常复杂的环境中,但需要花费相当的时间,并采用恰当的工具和流程来有效实施。

要了解这种方法,如下,让我们来探讨前面所述的每个核心流程:

1、数据收集和管理

2、数据分析

3、预测

4、提供可执行的信息

数据采集

性能数据必须以具备足够的细粒度级别进行收集,以满足业务交易的需求。例如,实时交易和在线购物需要比批量处理更多的细粒度。请记住,您企业所使用的收集工具必须以自动化和高度可扩展的方式提供详细,及时的数据,以确保项目的成功。

数据分析

传统上,这种分析是由容量管理专家通过简单的工具(如电子表格)“手动”检查数据;或通过构建和维护定制的工具和查询来执行的。这种类型的手动分析需要花费大量的时间和专业知识,并用到在许多企业中已经薄弱的资源。自动化是一大解决对策,尽管在这方面存在较少的可行解决方案。历史上,许多这些“自动化”解决方案仍然需要大量的时间来设置,并在提供有用的信息方面仍然受限。然而,技术现在可以用更实际和更有效的方式解决分析问题。

预测

为了准确预测性能,我们需要认识到,计算机系统的行为不是线性的。如果其是线性的,那么预测就像线性趋势一样简单。现实是排队发生。排队是指当一款CPU、控制器或其他设备有超出其所能够执行处理的工作进入时的情况。然后,服务不得不等待排队,就像排队等待在商店款台结帐一样。当只有很短的队伍或没有排队时,响应时间与所添加的工作成比例。您企业再添加一些工作,一些应用程序或基础架构,就有了更多的工作亟待处理。排队由此开始,突然间的延迟是巨大的。这就是所谓的曲线中可怕的拐点,之后的响应时间呈指数增长——等待时间比工作时间还要长,响应受到很大的影响。

  经常,IT假设延迟将始终是线性的,而他们也正在疯狂地争取解决这一问题。

为了避免拐点,许多IT机构遵循始终不让系统所处理的任务太繁忙的策略,这意味着过度配置——保险但却造成了浪费。他们为避免拐点付出了太多代价。

你企业必须清楚的知道拐点将在何处出现,以便在没有过度配置的情况下避免它,这需要了解IT组件如何交互来执行工作。使用各种技术来预测性能的不同程度的精度,从Excel电子表格到线性趋势,到模拟建模,再到分析建模。

然而,直到最近,这些解决方案都需要用到大量的专业知识,专长和时间。庆幸的是,现在可以非常及时地自动获得预测。

提供可执行的信息

有效执行上述三个领域的结果应是生成可执行的信息和具备可视化的报告。由于IT决策通常对整个业务有影响,因此这些信息也必须以对非IT利益相关者有意义的方式呈现。例如,根据业务指标(如销售,SLA或正常运行时间)而不是根据诸如内存或I /O等IT指标。IT部门花费数百或数千小时为各利益相关者创建报告并不常见。尽可能的情况下,报告任务也应自动化,使IT人员能够专注于主动解决问题和创新。

案例:JN数据公司如何管理复杂性

实时识别和理解企业中值得关注的内容帮助JN数据公司的容量经理Henrik Tonnisen向主要客户(其中包括丹麦第三大银行Jyske Bank和丹麦最大的抵押贷款公司Nykredit)交付提供了市场领先的服务,资源效率和透明度。

为此,Tonnisen将来自数万台服务器的技术数据融合到动态的自助服务报告中,以满足每个业务利益相关者的需求,将讨论从复杂的技术指标转变为可操作的业务信息。

Tonnisen表示,他们的团队在宣布推出新的自助报告仪表板后,获得了利益相关者的一致好评。

一种新的模式

自动化和分析已被证明对现代容量管理所带来的挑战是有效的。然而,直到最近,这些解决方案也仍然需要大量的时间和专门知识来实现有效的实施。

当前,一种新的模式正席卷了整个行业。这种新的模式使用自动健康和风险评分来识别当前和未来的性能,以及未来的时间框架和严重程度问题。这是游戏规则的一个改变:节省了时间,需要的专业知识更少,使所有IT10企业的容量管理更简单,更易于访问。

为了方便计算每项服务的简单,易于理解的健康和风险分数,在幕后运行的是复杂的算法。监控列表可以被定义为将注意力集中在您所使用的服务上,负责并且容易地确定需要采取的行动,无论是解决当前问题还是扩展容量,以避免未来的问题。您企业不再需要花费数不清的时间在数据上了。自动算法将为您执行。

为什么要实行健康和风险评分?

健康和风险分数涉及容量管理过程中的两大主要功能领域:

1、性能管理——识别和解决导致应用程序响应缓慢和服务中断的性能问题(健康状况)

2、容量规划——预测何时需要进行容量升级或额外的基础架构,以避免服务性能不佳或中断(风险)

健康和风险分数如何计算?健康分数

通过深入了解包含服务的每个系统来计算健康评分。分析排队网络模型用于计算实际的CPU和I / O性能,并与每个系统的理论最佳性能相比较。内存将根据当前的利用率进行评估,并通过查找与内存管理的正常活动级别的任何偏差来进行评估。通过检查当前可用容量和历史行为模式来评估磁盘空间使用情况。分析结果被整合并归一化,以创建一个易于解释的健康评分,范围从0到100,0-44表示健康状况不佳,45-54表示需要警告,55-100表示 健康状况良好。

风险评分

风险评分是通过运行容量规划算法来确定的,进而预测将来服务将如何运行。容量规划算法预测服务增长率对构成服务的系统的影响。分析排队网络模型用于计算未来的CPU和磁盘I / O性能,并与系统的理论最优性能进行比较。这些模型产生了一系列预测,这些预测说明了我们之前讨论的计算系统中固有的非线性行为。

通过评估活动模式并在预测期结束时预测磁盘空间的使用情况。基于这些计算,生成风险分数来表示预测风险的严重性。风险分数归一化为0至100的范围,以代表风险量,0-44表示低风险,45-54表示警告,55-100表示 高风险。除了风险评分,还将预计发生性能不佳或停电情况的日期。通过在预测结果中查找一次性事件和周期性行为来预测风险何时发生,并计算发生风险的天数。

简单性是王道

鉴于所有的工作自动发生在幕后,容量管理要简单得多,所有的IT企业都更容易访问。企业不再需要雇佣大量数据科学家,工作人员的工作时间得以节省下来,预测不再需要内行专家。 IT人员和服务经理可以查看健康和风险的单一指标,其次知道应该在哪里集中注意力。

准确性事项

算法和计算的准确性非常重要。那么他们有多准确呢?

1、对于CPU和I / O活动而言,到目前为止,最准确的健康和风险测定使用分析排队网络模型。

2、对于磁盘空间和内存而言,智能算法评估利用率和子系统活动的模式,以准确地解释当前,并预测未来的利用率。

所有这些方法都适应工作负载,配置和其他环境变化。使用这些方法与复杂的算法,最终的结果是行业中最准确的健康和风险计算,准确率通常为95%。

评估您企业的选项

目前市场上有各种容量管理解决方案,可满足不同的企业环境和不同需求。而为了有效地评估它们,比较功能和方法是有帮助的,并且有助于理解它们将如何影响您企业的容量管理成果。

为了确定IT和业务服务的健康状况,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

标准阈值比较

增强阈值比较

事件检测

从正常运行到变化的比较

分配比较

排队理论

为了确定IT和业务服务的风险,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:

线性趋势

增强趋势

事件预测

分配预测

排队理论

诸如标准阈值比较和事件检测等选项更容易设置,但提供的精度要低得多。分配比较和预测适用于虚拟环境,但是缺乏驱动资源效率的能力,因为它们需要考虑分配的内容与使用的内容。排队理论需要智能配置和细粒度数据,但在确定服务健康和风险方面提供了更为准确的结果。

在选择企业容量管理解决方案时,应考虑以下因素:

环境中的物理和虚拟服务器的数量

IT企业所管理的服务的数量

未来3年预计的基建投资情况

目前基础设施过剩的程度

关键服务中断的潜在成本

这些因素将支撑能力管理投资的潜在回报,并有助于确定您企业所应该追求的解决方案类型。

本文转自d1net(转载)

时间: 2024-10-02 22:03:21

健康与风险:数据中心容量管理的新模式的相关文章

数据中心方案“定制化”新模式备受关注

智慧城市已被作为中国未来城市转型升级的主要方式,而大数据是智慧城市的智慧之源,能够使政府的决策与服务.人们的生活方式.城市的产业布局和规划及城市的运营与管理方式,实现"智慧化"或"智能化".在大数据时代里,重构数据中心.建设新一代数据中心将成为大势所趋,而综合布线是智慧城市各系统之间信息交互所需的基础网络,对于智慧城市整体发展起到关键作用.   大数据时代推动数据中心重构建设浪潮 智慧城市作为中国探索新型城镇化发展的重要举措,已进入实施阶段.据统计,中国已有超过30

使用假设分析满足数据中心容量需求

本文作者阐述了动态IT架构所面临的容量需求和规划的挑战,以及指出为什么假设分析是现代数据中心容量管理的关键工具的原因. 如今,大数据,物联网(IoT)和人工智能(AI)等技术得到了蓬勃发展,也正在产生大量数据,并使组织能够推动业务创新.然而,也消耗了大量IT资源.这些新兴技术需要来自数据中心提供重要的基础计算和事务支持,而数据中心管理人员正在努力跟上需求. 现代数据中心管理人员如何响应敏捷性和灵活性来满足日益增长的需求?其答案在于动态的.可扩展的配置和以IT速度有效管理计算资源的能力. 规划有效

零距离:施耐德谢卫刚谈数据中心能效管理

2011年1月10日,第六届中国IDC产业年度大典在京举行,施耐德电气IT事业部大中华区战略市场总监谢卫刚代表全球能效管理专家施耐德电气在会上作了有关云计算数据中心规划的想法和思路方面的精彩演讲,并在会后接受天极网服务器频道记者的专访,解析数据中心概念.分析施耐德提升数据中心能效的策略.云数据中心规划和未来数据中心的发展趋势,等等.服务器频道为网友献上本期<零距离>,施耐德电气谢卫刚总监为网友解读数据中心能效管理专场.                            [施耐德电气IT事业

数据中心能效管理最常见的五个要点

全球大约有475万台正在运行,管理和升级的服务器日常的使用率不高.这些处在闲置状态的服务器需要耗费207亿美元维持运营,额外还要再花费37亿美元用于能源支出.也就是说每年花费在闲置服务器硬件日常维护,管理,能耗和制冷方面的费用大约为214亿美元.这笔费用大致等同于阿波罗登月计划的支出. 有效管理能源能为数据中心节约40%甚至更多的能源支出.想象一下一座数据中心每平方英尺所消耗的能源是办公建筑平均能耗的10倍到100倍,在某些情况下最高能耗甚至占到企业温室气体排放量的40%,就很清楚管理数据中心的

五步教你轻松搞定数据中心容量规划问题

无论使用大型机或云计算,数据中心容量规划依然严峻,要确保拥有业务所需的足够IT资源. 数据中心管理者面临着相同的挑战:业务需要更多的计算资源,但同时也希望降低能耗,冷却和其他设施费用.当走到评估是否需要进行数据中心这步时,一步一步的规划,是省下一大笔开支的好方法. 数据中心容量规划是朝着正确方向迈出的重要一步,而且能够增强IT与其他业务领域之间的关系.虽然IT涉及到大数据与与物联网--而这些技术将如何影响数据中心容量--是可以评估,也可以用一定的方法缓解. 这里有五个技巧,帮助您解决数据中心容量

虚拟化帮助国家统计局整合数据中心简化管理

我们通过采用这一全球领先的技术,充分感受到http://www.aliyun.com/zixun/aggregation/13883.html">虚拟化技术带来的好处,使得我们大大提高了对服务器的整合和管理,也便于我们快速部署各种应用,大大提高了我们的工作效率."--张富民 中华人民共和国国家统计局计算中心副主任 VMware帮助国家统计局整合数据中心.简化管理 VMware 的P2V.ESX Server 与VirtualCenter 帮助中国国家统计局将多个旧服务器上的应用迁

基础知识:数据中心资源池管理事项

数据中心的管理一般是通过http://www.aliyun.com/zixun/aggregation/13750.html">监控数据中心的信息网络来实现的,而专家指出,充分了解资源池内的各种信息,可以更好的实现数据中心管理.除了那些监控设备传递出的各种各样的数据之外,一个电源插座.一条线缆.甚至一个UPS也可以传递数据中心各种设备的有关信息. 比如,能量供给是数据中心需要慎重管理的方面,服务器应该插入机架上的哪个电源插座(PDU)?应该将这一电源插座插入哪个地下接口?对大多数数据中心,

揭秘数据中心可视化管理:让IT可视

可视化技术最早运用于计算机科学中,并形成了可视化技术的一个重要分支--科学计算可视化(VisualizationinScientificComputing).科学计算可视化能够把科学数据,包括测量获得的数值.图像或是计算中涉及.产生的数字信息变为直观的.以图形图像信息表示的.随时间和空间变化的物理现象或物理量呈现在研究者面前,使他们能够观察.模拟和计算. 物联网.云计算.大数据等技术的发展和普及正把我们带入"万物均互联,一切皆数据"的新时代,人类传统的认知方式和管理手段面临变革,而在数

思科新产品瞄准数据中心简化管理

3/3/2016, Lightreading报道,思科公司周二在思科伙伴2016大会上发布系列新产品,包括其旗舰的Nexus 9000交换机的升级版和一种全新的致力于简化数据中心管理的将计算,存储,路由交换集于一体的新产品HyperFlex. 思科公司产品市场经理Todd Brannon表示,将存储和计算结合在一起的所谓超级整合Hyper-convergence概念是数据中心简化管理的需求.但是,存储和数据在上世纪90年代x86架构刚开始发展的时候,出于性能的考虑则是分开的.这才有了存储网络SA