1.1 数据中心挑战
思科UCS服务器统一计算
数据中心是大公司IT基础架构的中心。典型的财富500强公司在世界各地运行数千个应用程序,存储PB级数据,并且有多个数据中心和一个适当的灾难恢复计划。但是,这种大规模的基础架构通常成本高昂!
数据中心需要昂贵的不动产,它们消耗大量电力,并且通常运营费用也很庞大。
为了更好地了解数据中心可以有多大规模,参考书目【35】列举了一些示例:
Google Dalles(OR)数据中心占地68680平方英尺(6380m2);
Microsoft Quincy,占地470000平方英尺(43655m2),耗电47MW;
Yahoo Wenatchee & Quincy,占地200万平方英尺(185800m2);
Terremark - NOTA,占地750000平方英尺(686767m2),耗电100MW
本章前几节将详细分析这些问题。
1.1.1 环境问题——环保
您可能已注意到环保问题现在已是无处不在了:新闻、政治、时尚和技术中都有;数据中心也不例外。美国国家环境保护局和美国能源部有一个联合项目,通过节能产品帮助企业在保护环境的同时节约开支:这个项目名为“能源之星”【40】。节约的费用可通过计算市场平均电价来估计【42】。
“能源之星”是一种已经证明有效的能源管理战略,有助于度量当前的能效、设定目标、跟踪节约和奖励改进。例如,2007年7月生效的“能源之星4.0”标准,它要求台式机、便携式计算机和工作站的电源在负载范围内效率达到80%。此外,它还限制了休眠设备的能源消耗,并要求系统出厂时开启电源管理功能。
另一项成果是Climate Saver 智能计算【41】,它起源于世界野生动物基金(World Widwlife Fund,WWF)的拯救气候计划。通过证明减少排放也是优秀企业的一部分,自1999年以来,已有十几个企业参与该计划来减少二氧化碳排放量。其使命是,到2010年,将每年全球计算机运行的二氧化碳排放量减少5400万吨,这相当于1100万辆汽车或者10至20个火力发电厂的年排放量。
参与计划的制造商承诺生产符合节能目标规范的产品,此外,成员还承诺购买节能计算产品。
电脑节能拯救气候行动从“能源之星4.0”关于台式机、便携式计算机和工作站的规范开始,并在2007年至2011年期间逐步提高了能效要求。
从第一天开始,UCS就符合“能源之星”标准,并且其设计满足拯救气候行动的能效目标。
1.1.2 服务器整合
为了节约能源,在“每一瓦都很重要”和“让我们以最大能耗者为目标”之间寻找平衡一直都很重要。
对于前者,我记得有个朋友告诉我,在准备长途徒步旅行之前,他把牙刷柄都钻上洞,以尽可能减少携带的重量。
对应方法是试着尽可能优化数据中心消耗电力的每个组件。例如,网络设备耗电约占总量的14%。通过使它们节能50%以上(一个很难实现的目标),可节省7%的电量。
对于后者,数据中心的最大耗电户是服务器,而通常大多数服务器的负载非常轻。图1-1显示了通用服务器的性能电能比(经sepc.org许可)。由图可见,很显然,如果服务器负载低于60%~70%,则性能电能比将低得难以接受。现代处理器有类似SpeedStep之类的技术来减少低负载处理器的耗电量,但是处理器耗电只是服务器耗电的一部分。这意味着节能的主要方法是让低负载的服务器退役,并采用虚拟机替代它们。
有统计数据声称,服务器的整体利用率在5%~10%范围之间。假设服务器消耗70%的电量,而我们将该数字减少五分之一:负载将增加到25%~50%;而耗电量将减少到14%,即纯节电56%。
组合使用这两项技术将产生更大的结果。减少服务器数量的关键技术是“服务器虚拟化”。
1.1.3 虚拟化
虚拟化是一个广泛且过度使用的术语,指计算机和网络资源的抽象。例如,VLAN(虚拟LAN)和VSAN(虚拟SAN)是网络虚拟化的形式。
数据中心中服务器虚拟化正变得越来越重要,特别是硬件辅助虚拟化。Wikipedia对虚拟化的定义是:“硬件辅助虚拟化是一种虚拟化方法,借助硬件功能,主要是主机处理器的帮助,实现高效的完全虚拟化”。完全虚拟化用于模拟完整的硬件环境或虚拟机,其中,可以完全独立地运行未经修改的“guest”(来宾)操作系统(使用和主机相同的指令集)。最初在IBM System/370上实现硬件辅助虚拟化,最近(2007年)开始在x86处理器(Intel VT或AMD-V)上实现硬件辅助虚拟化。
根据Gartner的报告,“到2012年,虚拟化是对改变基础架构和运营影响最大的趋势。它将会改变如何管理、如何购买以及购买什么、如何部署、如何计划以及如何收费【36】。”研究机构IDC的几项研究也支持这一论断。该机构报告称,现在有22%的服务器正在进行虚拟化,在未来12个月至18个月中,预计这个数字将增加到45%【37】。IDC的另一项研究预计,到2010年,服务器虚拟化产生的逻辑服务器数量将超过未虚拟化的物理服务器数量【38】。
基于X86处理器系统的虚拟化解决方案示例包括VMware vSphere/ESX、Microsoft Hyper-V、Linux KVM和Linux Xen。
借助高效的硬件辅助虚拟化,可以虚拟化多个利用率低的服务器(也就是,转换为虚拟机),并且可以在一台物理服务器上同时运行多个虚拟机。还可以将虚拟机从一台服务器迁移到另一台服务器上,以平衡负载或者是进行灾难恢复。
世界各地的企业已经开始利用此模型了。例如,2007年的IDC研究表明,50%的VMWare ESX用户已经采用了VMotion功能【39】。这项技术支持实时迁移:将虚拟机从一台物理服务器迁移到另一台物理服务器,而不影响最终用户的体验。通过为IT经理提供动态移动虚拟机的能力,实时迁移使得平衡工作负载变得更简单,管理计划内或计划外停机也变得更高效。
凭借其大内存和原生态虚拟化的支持,UCS有助于将服务器数量减少一个数量级,从而大大节省电力。
1.1.4 电源和冷却
在建设新的数据中心时,每平方英尺(平方米)可安装的服务器数量是综合考虑许多因素的结果,其中一个主要因素是能提供多大程度的冷却。实际上,数据中心设备消耗的所有功率都会转换成热量,需要通过空调系统排出这些热量。
当前的数据中心每平方英尺为50W~200W(每平方米500W~2000W),这对当前的冷气技术而言最佳。新数据中心设计为每平方英尺300W~500W(每平方米3kW~5kW)。由于如此高的功率负载,因冷却系统失效导致的温度升高可达每分钟25℉(14℃),因此它们需要不间断的昂贵的冷却技术。
每平方英尺可用的瓦数直接与每个机架的可用瓦数相关。每40至60平方英尺(4~6m2)放置一个机架,当前数据中心为每机架2至10kW,未来的设计可能高达每机架12至25kW。
1.1.5 布线
布线是数据中心设计的另一大主题。到目前为止,采用的是铜电缆和光纤的混合,有两种主要物理拓扑结构:架顶式(Top of Rack,ToR)和列端式(End of Row)。
EoR方法将网络设备(主要是LAN和SAN交换机)放在列端,采用端口数较多(128至512个端口)的交换机以减少需要管理的网络设备数量。这意味着从服务器到网络设备之间需要更长的电缆。速率为1Gbit/s时,可用铜电缆,但是速率为10Gbit/s时,光纤是唯一的解决方案。
虽然光纤可能比铜电缆便宜,但是当考虑到安装和接收器(一个光纤接收器的价格可能超过3000美元)时,如果每台服务器使用两个或四个连接,其费用将超过服务器的价格,这还未将交换机端口的费用计算在内。
与之相反,ToR方法尽可能靠近服务器放置网络设备,通常放在每个机架或每隔几个机架的顶部。ToR交换机通常为端口数较少(26~52个端口)且配置固定的交换机。服务器到ToR交换机的距离通常限制在33英尺(10m)之内,即使速率为10Gbit/s,也可方便地部署铜电缆,这使得在一个机架中可以全部采用铜电缆布线。光纤用于将ToR交换机连接到中心网络设备(比如,交换机和光纤通道控制器)。连接到同一ToR交换机的所有服务器分担光纤费用。与之前的EoR架构相比,这种方法有一个大的权衡,就是增加了管理点。
在这两种情况下,布线都占到数据中心资本支出(CAPital EXpenditure,CAPEX)的很大一部分,而且还限制了机架和地板下的空气流动,这对冷却系统有负面影响(OPEX,营运开支)。图1-2显示了“细绝缘电缆”的一个极端示例。
在过去,数据中心要部署3个不同的并联网络:用于局域网流量的以太网、用于SAN流量的光纤通道和用于管理的单独以太局域网。有时候,还需要部署额外的专用网络,例如,用于备份的独立以太网或光纤通道网络,以及用于高性能计算的Infiniband。在最近的新一代数据中心架构中,以太网已经成为统一网络设计的一项支持技术。统一网络、I/O整合和以太网光纤通道(Fiber Channel overEthernet,FCoE)等术语用于表示采用以太网作为数据中心的唯一网络。这极大地简化了布线。
UCS是根据ToR方法设计的系统,构成UCS的所有服务器都连接到放在一个或几个机架顶部的两个互联阵列,它们使用统一网络方法进行通信,从而大大减少了布线。
1.1.6 灾难恢复
灾难总是不期而遇,大型组织必须有适当的灾难恢复计划。数据中心也不例外,并且必须在安全距离进行备份,以便将两个数据中心受到同样灾难影响的可能性降至最小。这意味着复制存储和服务器,并且能够在最短的时间内(即恢复时间目标,Recovery Time Objective)重启备份数据中心的计算服务。
虚拟化再次变得有用,因为它允许将虚拟机从一个站点移动到另一个站点。通常虚拟机迁移只在同一个2层网络(比如VLAN)内才可能,因为虚拟服务器的MAC和IP地址是虚拟机的一部分,而且大多数情况下在迁移时必须保留它们。
在过去的10到15年间,数据中心规模有了极大的增长,基于在所有设施间保持稳定性的考虑,人们不愿意再采用生成树协议(Spanning Tree Protocol,STP)作为底层技术。为控制STP,需要在数据中心设施的不同区域之间放置3层边界来创建PODS或边界,以限制突如其来的2层事件,比如STP环路或广播风暴。
然而,虚拟机在2层网络上创建了一个新的兴趣点,2层网络在某一点上似乎不如3层网络。在数据中心中,这会要求采用更高效的2层多路径解决方案来替换生成树协议。IETF TRILL项目【18】是这一发展的一个好示例:它提议采用IS-IS结合MAC-in-MAC封装来支持2层多路径。也必须有在两个或多个数据中心之间扩展2层网络的有效技术,我们将在下一节“网络虚拟化”中讨论这些内容。
最后,必须有将服务器配置从一个数据中心移动到另一个数据中心的简单方法。在UCS中,不会将各种组件(MAC、地址、UUID和WWN等)的标识固化到硬件中,而是将它们包含在配置文件中。这样管理员仅需移动配置文件就可以在灾难恢复站点中重新创建一个完全相同的UCS。
1.1.7 网络虚拟化
网络作为虚拟化空间的一个角色,需要解决两个互补领域:首先,使用网络功能支持虚拟化计算环境;其次,网络元器件的虚拟化。
在规划灾难恢复或者是在多个数据中心设备之间管理工作负载时,更大和无处不在的2层网络提供了许多操作优势。
更大和多站点的2层网络不应产生不必要的操作负担,并且应能保持当前IP网络提供的可扩展性和稳定性。
一种有前途的解决方案是基于“MAC路由”概念的技术发展,该技术使得VPN解决方案成为可能,VPN可在不同的2层网域之间提供连接性,并同时保留基于IP互联的所有好处。这是数据中心互联解决方案的一大进步。
在MAC路由中,2层可达性信息以与3层网络中非常类似的控制协议分发。这种协议学习是保持IP网络的错误控制和无环路路径特点,同时提供2层连接性的基础。MAC路由中有技术来确保再收敛事件,广播和未知单播泛洪不被扩散,并防止其传播到多个数据中心。
在MAC路由模型中,流量转发由IP层完成,这使得解决方案与传输无关。现在,网络架构师可在数据中心之间自由选择支持1层、2层或3层服务。其关键是从一个中心传输到另一个中心时,操作模式不会发生改变。这样,传输核心和底层的2层扩展之间没有任何复杂的交互。这与当前标签交换VPN技术的传输限制大不相同。简而言之,MAC路由对于核心完全透明,因此可最大程度地降低2层扩展可能对网络设计和操作产生的影响。
Nexus 7000是首个在L2/L3边界提供MAC路由功能的思科平台,保持了在2层网域之间(可能需要2层连通性)的3层路由的好处。可在底层的IP核心或叠加控制平面中实现3层智能,这使得2层网域间的流量可继承传统上只在3层网络可见的大量增强特性。其中一些示例包括:支持高带宽互联的负载分发的无环路多路径,最佳多播复制,单播和多播的唯一控制平面,以及具有等价多路径路由的快速重路由。
MAC路由支持2层VPN解决方案,同时扩展支持3层VPN解决方案。为了虚拟化网络本身并实现虚拟网络环境整合的好处,这些方案被越来越多地采用。
1.1.8 桌面虚拟化
虚拟化的一个重要形式是桌面虚拟化。许多大公司有数千台台式机分布在不同地点,安装和维护都很复杂。替代方法是提供终端服务器服务,但是这剥夺了用户完整的PC桌面体验。
桌面虚拟化或虚拟桌面架构(Virtual Desktop Infrastructure,VDI)提出,为系统管理员和最终用户提供一种两全其美的方案,即由系统管理员集中配置和管理最终用户的完整的PC体验。
有了桌面虚拟化,系统管理员可为所有桌面集中提供新应用程序、升级现有应用程序,并升级或修补操作系统。采用一致的方法存储数据,并且可集中备份和恢复数据。
VMware、Microsoft和Citrix等公司已提出了一些不同的方法。他们都在数据中心中运行服务,通常是在虚拟机上运行,有不同类型的桌面(从经典PC到便携式计算机,再到瘦客户端)。他们的不同之处在于:应用程序的运行位置,为用户提供的灵活性程度、桌面的标准化程度,以及安装应用程序和桌面与服务器通信所使用的技术。
远程桌面协议(Remote Desktop Protocol,RDP)已被广泛应用,市场上还有其他解决方案,但是还没有出现具有明显优势的架构。
UCS是可在由数百个不同节点构成的单个系统上运行成千上万台虚拟机的平台,因此非常适合托管大型桌面虚拟环境。
1.1.9 云计算
云计算是一个用于指以经济的方式运行应用程序的常用术语。其想法是使用由通用服务器、存储和网络设备组成的“云”。通过可根据应用程序需求无缝增加或减少资源的灵活管理系统,云可按需运行应用程序[43]、[44]。
有了云计算,随时随地都可以访问应用程序。云可以分为私有云或公共云。公共云计算最著名的示例是亚马逊的弹性云计算(Amazon EC2)。
当然,并不是所有应用程序都适合公共云。数据安全是最令人担忧的问题。监管要求强制在不同地点保存多个数据副本。其他问题包括延迟和应用程序可用性。
基于这些原因,许多客户在评估在企业内部创建私有云来构建经济高效的数据中心基础架构的可能性,这种私有云适合随需而变的应用程序部署。这将大大提高服务器的利用率。
此外,客户还开始要求“标准化”服务器,即可以轻松地更改服务器的用途。这些新服务器还必须能够支持大量虚拟机,可轻松地将虚拟机从一台服务器迁移到另一台服务器上,并且还有一个策略驱动型管理系统,并提供大量API接口(与云软件的接口)。
思科 UCS是在设计时就考虑了云计算的服务器。