虚拟机管理:如何在实践中做好数据中心资源平衡

现今对数据中心的要求是稳固、有效,这首先要做到“合理使用”。虽然闲置资源对于一个环境来讲是种资金浪费。但若是没能对频繁使用的数据中心进行合理的资源配置,必将引发危险场景。单一硬件失灵可能导致其他物理主机发生故障。IT管理人员面临的困难在于:使用并管理好遍布整个环境的计算资源(通常包括物理的,虚拟的和云资源)。本文将和大家讨论作为达到资源优化这一目的所使用的手段--资源规划和问题缓解。我们还将说明如何在问题恶化之前解决它。

资源规划的最佳实践

当今,几乎所有的数据中心都已经拥有或是将会进行某种形式的虚拟化配置。这就要求我们在对物理平台进行虚拟化时需要作更多考虑。我们已经在单一硬件平台上建设了多种虚拟机应用,计算资源共享硬件平台的CPU、内存,网络资源共享I/O--有时流量共享磁盘。当谈及资源管理和问题定位时,主动规划可以帮助解决资源利用的问题。

资源的负载平衡

不管是在虚拟还是物理环境中,了解清楚哪种资源被使用以及资源分配给了哪些虚拟机是很重要的。例如,如果手边有一台物理主机,配置是8核和24GB随机内存,工程师不会把所有可用资源都用上,因为那样的话,就完全失去了应对调整和故障的余地。

图1 Citrix XenServer 6.0企业版管理程序,其配置为仅有本地内存支持的单一主机。对于小企业这样的部署能够满足良好运行;但随着业务的变化,多台主机则成为必要

如图1所示,单独一台XenServer主机为终端用户提供几项高使用频率的工作负荷。这个办法虽然可行,但是在面对业务应用高峰或者出现要添加虚拟服务器的潜在需求时,进行相应调整的空间几乎没有。在上述例子中,工程师将不得不从其他虚拟机上移走虚拟资源--本例中是随机存储内存--以便实现单台物理机上的内容增长。按照要求物理资源必须为所以虚拟机可用。在任何环境中,必须保证有空间来应对紧急情况和未来的扩展。这将是负载平衡和虚拟机管理起巨大作用的地方。

不论是虚拟机还是物理机都必须有合适类型的资源分配给它们。当部署了经常使用的工作负荷后,要在不影响其它虚拟或物理工作负荷前提下,对资源进行规划和传输。同样是这个案例场景,如图2所示,我们引入了第二台物理主机,有着类似硬件规格,开始对虚拟和物理的资源单位进行负载平衡处理。

图2 Citrix XenServer 6.0企业版管理程序,显示了在资源池里配置了多台主机。该资源池能够进行资源共享,原因是虚拟机能够在存储局域网(SAN)范围内实现在主机之间实时移动

在新场景中,我们有两台物理主机投入到资源池里,在这里,资源可以在虚拟机之间得到共享。由于每个环境都是独一无二的,需要对物理资源的负载平衡处理过程作个别规划。本例中,按照现在虚拟机的要求,两台物理主机具备额外可用资源。而且还为这个具体环境配备了备用CPU,RAM和存储,从而保证虚拟机运行的灵活性。

同样,许多环境将会出于高可用性(HA)考虑想要执行负载平衡。把XenServer 6.0作为示范管理程序,内置工具将会协助完成这一过程。通过使用“合并服务器”高可用性功能,管理员能够看到哪些机器可以安全地故障转移到另一台主机上。在这里,工程师可以确定每台物理机需要多少资源来处理它的负载。最重要是要记住一点,这两台服务器在满足了新创建虚拟机有可用资源,故障转移和工作流程自动化这些特性同时,实现了负载平衡。从HA角度来看,如果上述提到的物理主机之一发生了故障,另一台能够承载起故障主机上的关键虚拟机。

当资源在机器间达到平衡,虚拟机就有能力根据需求在物理主机间移动,而不影响现行的资源状态。把灾备(DR)当作一个有可能的例子。如果一台物理主机在这种类型的负载平衡场景中发生故障,虚拟机会转移到下一台能找到可用资源的主机上。如果任何一台主机都被全面利用,就不可能允许灾备和故障转移,这仅仅是因为另一台主机上已经没有可用资源来支持追加流入的虚拟机。

工作流程自动化

许多同时使用虚拟和物理主机的环境可能需要工作流程自动化这一要素。例如,。以Citrix Workflow Studio为例,它是Citrix Delivery Center产品系列的一员。它是一种IT过程自动化应用,使管理员能够生成,调度,运行和管理工作流程。这些工作流程把技术元件捆绑在一起,实现重复性配置流程的机械化,并帮助管理任务协调环境型触发事件。基于Microsoft.NET的框架,Windows Workflow Foundation和Windows PowerShell,Workflow Studio允许工程师动态生成新的虚拟资源回应容量需求,不管是计划内还是计划外的。在该场景中,关键点在于,要有适当的资源与备用物理机对应,这样的话,新增加的虚拟机将会有RAM,CPUs可供使用。

任何时候都会存在要在某一环境中增加虚拟机的需求。由管理员决定给每台新增虚拟机分配多少资源。过多或过少的资源分配都会导致时间和资金的浪费。这也是为什么给现行环境中的虚拟机管理制定一个策略规划是如此重要。通过了解目前数据中心可用资源是什么,工程师能够更有效地传输工作负荷。

这意味着,管理员需要敏锐关注他们管理的物理和虚拟环境,并准确把握多少用户和机器能够安全、高效地在该主机上处理任务。例如,虚拟桌面架构。当用户登录时,就开始消耗一台受监控机器上的资源,如图3所示。

图3 Citrix XenServer 6.0企业版管理程序,显示了一个独立的XenServer主机只被虚拟桌面架构所使用。虚拟机可以是本地存储,也可以在骨干存储局域网上存储。

目前,图3所示的机器没有被充分使用。不过,一旦用户流入,资源被占用的比例会迅速增长,从而给这个不平衡的环境带来问题。相应地,用这个数据制定虚拟工作负荷。例如,给资源使用设定一个上限,使得在一个妥善管理的数据中心里,能够在一台物理机上运行安全值数量内的工作负荷。

设定资源“提醒”和“告警”

在数据中心创建告警和通知功能能帮助维护一个健康的环境并提高虚拟机管理。在用户察觉之前,或者在危害服务级协议(SLA)之前就发现问题,能让数据中心的虚拟和物理机用得更长久,更有效。从资源角度看,先进管理程序可以设置提醒和通知功能,如图4所示。

图4 CtrixServer 6.0企业版管理程序提供“提醒”功能,能够在每台虚拟机和物理机上进行配置。本例中,为一台Windows Server 2008R2 Enterprise Licensing Server设置了提醒功能。

有了提醒监控,工程师能够设置CPU,网络和磁盘告警。使得技术人员及早发现侵害性问题,并在影响最终用户之前采取措施减轻资源分配问题。规划和部署过程中,设置资源告警是一个重要环节。许多环境把这个动作放到最后一个步骤,只会导致数据中心快速陷入资源型问题。

使用现有的第三方资源监控工具

管理员要经常检查那些会直接影响个别物理或虚拟主机的资源。这种情况下,有一些很好用的第三方细粒度监控工具可以帮助汇报特别数据库服务器,云机器和其他大量使用的工作负荷。其中一个由uptime软件公司推出的名为up.Time的工具让管理员能够监控服务器,虚拟机,云,并置,及其它内容。使用up.Time图形化服务器监控软件后,管理员能够在独立于任何在用操作系统的条件下,对数据中心内部运行的所有关键性服务器资源进行图解和分析。深层次上,对CPU,内存,磁盘,进程,工作负荷,网络,用户,服务状态和配置数据进行细粒度监控能够帮助工程师对数据中心资源进行合理地分配和规划。

另一个可靠的网络监控工具来自SolarWinds公司。该工具名为Orion Network Performance Monitor(NPM) ,提供细粒度网络流量和性能监控。为了协助工程师的日常工作,NPM监控器可以为路由器,交换机,无线访问点,服务器及其它SNMP型设备进行上下搜寻,并对实时的,深层的网络性能统计数据作分析。对于大型数据中心,NPM允许工程师快速浏览核心IT服务和数据中心状况,方法是通过查阅筛选过的告警,它动态集合了相关的系统和设备。

此外,资源问题通常能够利用机载工具进行诊断和解决。例如,由微软操作平台推出的Resource Monitor,能够对一台机器上的资源利用情况进行图解,让管理员了解资源是如何得到使用的。

图5资源监控器显示了Windows Server 2008 R2 Enterprise Exchange Server上当前的内存使用情况

在图5例子中,该服务器的store.exe有RAM方面的问题。工程师应该了解,Exchange软件可能引起了RAM密集现象,所以看到这种使用情况很正常。不过,了解到这一点,工程师就能够选择要么增加主机资源,要么把该主机上的部分负荷转移其他机器上。

自然地,Resource Monitor有几个设定可以帮助工程师探测机器并查出哪些资源正在被使用。另一个例子就是网络处理量。图6中,我们看到的是一台普通操作中的服务器。但是,如果出现网络尖峰,我们就能够看到其来源并确定如何能够进行最有效的缓解。要得到一个细粒度全景图,工程师可以深入现有环境,生成自己的监控器,来了解数据中心哪些地方有缺失,或者数据中心运行的总体情况。

图6 Resource Monitor显示了Windows Server 2008 R2 Enterprise Exchange Server上的网络流量和使用情况

数据中心存储资源考虑内容

存储资源可能是既有限又昂贵。不合理的存储利用可能导致运行问题,最终付出高昂代价换取解决。不管什么时候,监控虚拟和物理环境中的存储利用情况总是非常重要。智能存储工具通过合并数据和有效传输能减轻巨大工作负荷带来的痛苦。数据中心存储局域网环境的一个主要漏洞在于资源使用尖峰。例如,在某一特定时间,大量用户访问系统。

面对这些情形,磁盘成为主要使用的设备,而运行几乎陷于停止状态。为了应对这种情况,存储局域网厂商开始寻求固体技术和智能“去重识别”缓存机制,来缓解性能瓶颈问题。

图7图表显示了Flash Cache是如何影响了NetApp 3000系列控制器及它的磁盘聚合。这张截图显示了一个总长为80分钟的活动--其中前20分钟未得到缓存。

图7,一大批用户在访问一个被大量使用的工作负荷。该例子中的设备是NetApp控制器。我们可以看到,没有缓存的磁盘性能和有机载缓存两者之间的差别。这几类有助于数据中心高效运行的解决方案能够让一个环境运行得更持久,更顺畅。本例中,工程量不必为了资源发放而购买大量的磁盘。相反地,他们可以利用现有存储实现把大量工作负荷更有效地传输给最终用户的目标。

规划和关注有回报

任何时候都要记住,运算资源是有限的。应对预料之外的事件或短缺情形要增加资源时,成本可能会很高。这意味着管理员必须对数据中心整体环境有先见之明,在资源利用问题影响到工作负荷和最终用户之前就及早发现它。

(责任编辑:吕光)

时间: 2024-08-06 09:57:55

虚拟机管理:如何在实践中做好数据中心资源平衡的相关文章

数据中心资源向AWS迁移的四大挑战

很多企业将他们的数据中心资源向AWS中迁移,而更多的企业正在考虑向AWS中迁移数据中心资源.数据中心资源向AWS迁移能够带来极大的好处,AWS提供了一整套云计算服务,可以比企业自行构建数据中心更快.更经济地提供大型.可扩展的计算能力. AWS涵盖了近100项服务,包括了分析.计算.数据库.网络.存储.移动等等.企业选择AWS的原因多种多样,可能涵盖了以下一个或多个原因: 企业希望消除本地数据中心或减少数据中心占地面积,数据中心需要广泛的基础设施和专业人员 企业希望通过租用公有云服务来建立混合云,

管理远程数据中心资源的五个最佳实践

如今的现代IT基础设施已从一种本地化环境演变成一种分布式数据中心架构.管理员能够利用更好的远程托管服务,帮助自己扩大现有环境,并完成更多与业务有关的IT任务.企业组织在利用云技术和专用的广域网链路,帮助自己扩大现有数据中心,并使用外部资源,用于灾难恢复.扩建.额外的用户工作负载,或者甚至测试和开发. 这些资源可供使用时,人们往往会用完资源.如果环境是本地环境,管理和监控数据中心里面的现有资源可能更容易. 然而,如果有分支机构或其他远程环境也需要监控,该如何是好?要牢记的一个要点是,资源始终是有限

UPS技术新突破 轻松构建高效、可靠、可扩展的中大型数据中心

在云计算.大数据等新技术和应用的推动下,数据中心大型化的趋势非常明显.不仅互联网巨头们的数据中心规模越来越大,一些云服务提供商的数据中心的规模也迅速膨胀(出现了10万+台服务器以上的数据中心),相应地,市场对中大功率UPS的需求也大增. 实际上,中大功率的需求不仅来自数据中心也来自工业应用领域.根据HIS的研究,预计到2019年500KVA以上功率UPS市场将以近2位数的速率增长,而中国市场对中大功率UPS的需求更为强烈,2014年到2019年的年复合增长率将达到13.6%.面对这个高速增长的市

Lamda Hellix公司在经济逆境中扩建数据中心

希腊数据中心运营商Lamda Hellix公司获得了行业媒体Datacenter DynamicsAward颁发的服务供应商类别的奖项,而其Athens-2数据中心成为了欧洲东南部地区领先的数据中心之一,而该数据中心也是该地区获得TierIII级认证为数不多的数据中心之一. Lamda Hellix公司选择在雅典扩展其数据中心园区,以满足该地区的优质互联和运营商中立服务的强劲需求,尽管希腊遭遇金融危机.LamdaHellix公司商务总监亚历山德罗·博科拉科斯表示,目前看到了市场仍在增长."希腊处

中石油数据中心升成集团级数据中心

摘要:作为四家集团级数据中心之一的中国石油数据中心(克拉玛依),一旦投用,将为中石油各驻疆企业及海外企业提供安全.可靠.高效.便捷等为特征的信息化服务,为公司未来业务发展提供强大的支撑.这是1月7日在我市举行的中国石油数据中心(克拉玛依)研讨会上透露的消息. 当天,集团公司信息管理部.海外勘探开发公司以及11家驻疆企业的信息部门负责人及相关工作人员济济一堂,共同探讨中国石油数据中心(克拉玛依)建成后的应用前景,并提出了很多好的意见和建议. 集团公司信息管理部副总经理古学进主持会议,新疆油田公司副

提高数据中心资源利用率的绿色技术

在http://www.aliyun.com/zixun/aggregation/13616.html">新一代数据中心中,为解决传统数据中心的IT资源利用率十分低的问题,CIO们都在不停地选择高效的设备,寻求更高效的系统,以及更多的探索提升数据中心资源利用率的绿色技术.而广泛采用虚拟化技术和系统合并,有助于打破孤岛效应,共享IT资源,提高资源利用率,降低成本,使IT 基础设施具备更高的灵活性,并确保供需平衡.本文就和大家一起分享这两种方法. 合并:提高能效的关键 整合简单的说就是将不同系

基于车联网的云数据中心资源调度算法

基于车联网的云数据中心资源调度算法 黄小远,姚卫红 车联网的大量交通数据需要强大的支撑平台进行处理分析,云数据中心正好满足了车联网的需求.但是,车联网应用的特点与云数据中心物理主机配置的不一致通常会引起负载不均衡.针对该问题,本文提出一种基于车联网的CDM-CU 虚拟机部署算法.本算法并不单纯追求虚拟机和物理服务器性能向量的最优距离,也不单纯追求数据中心的最小负载,而是通过调和因子将二者灵活融合在一起,为用户提交的业务选择合适的物理主机来部署相应的虚拟机集.在CloudSim 环境下进行了实验仿

不要将数据中心资源浪费在过度配置上

每个虚拟机必须配置虚拟机实例及其工作负载正常运营所需要的处理器.内存以及存储.资源需求取决于工作负载及其活动等级,因此为虚拟机配置数量合理的计算资源可能是一个棘手的问题.配置的资源太少,工作负载可能表现不佳,变得不稳定或者甚至是彻底宕机.分配太多的计算资源,超额的计算潜能可能被浪费掉,而且会增加业务运营成本.IT管理员必须是检测虚拟机过度配置方面的专家,并采取正确的步骤调整资源使用. 为什么会发生过度配置 很多时候,管理员在一开始给虚拟机配置资源时就出错了.需要计算或内存资源的工作负载的创建者明

对付云管理,要从数据中心着手

就在数据中心.网格计算.超级计算.云计算等技术与概念逐渐崛起时,IT行业也正在朝着商业模式.技术架构到管理运营等各方面的方向去变动.同时,云管理技术也渐渐进入了我们的视野,有关云管理的话题也愈演愈热.在从用户需求.技术特征和功能组成来看,目前,云管理主要是数据中心的管理.该管理主要把重心放在了重点资源和业务的整合上.可视化和虚拟化上,而云管理注重的是按需分配资源和云的收费运营:目前,虽然数据中心管理相关的经验与技术很多已较成熟,但云管理的相关技术仍还没有很好的发展.而数据中心管理未来的发展方向与