就在数据中心、网格计算、超级计算、云计算等技术与概念逐渐崛起时,IT行业也正在朝着商业模式、技术架构到管理运营等各方面的方向去变动。同时,云管理技术也渐渐进入了我们的视野,有关云管理的话题也愈演愈热。在从用户需求、技术特征和功能组成来看,目前,云管理主要是数据中心的管理。该管理主要把重心放在了重点资源和业务的整合上、可视化和虚拟化上,而云管理注重的是按需分配资源和云的收费运营;目前,虽然数据中心管理相关的经验与技术很多已较成熟,但云管理的相关技术仍还没有很好的发展。而数据中心管理未来的发展方向与目标将是云管理。
如何进行云管理?现阶段需要关注哪些内容?从淘宝、腾讯等国内云计算应用先行者的IT建设和管理中,或许能够获得启迪。
先行者眼中的云管理
日均4亿次的网页访问量、日均交易额6亿元、全年交易额达2000亿元,……,这就是亚洲最大的网上交易平台——淘宝网。在这些惊人数字的背后支撑的IT基础设施,则是分布在杭州及全国的8个数据中心的上万台服务器、上千台网络设备以及运行着上百种应用。对淘宝而言,未来的云计算服务模式是“B2C+C2C+网络营销+云租用服务”,是对现有业务的继承和发展,因此首先要对现有的IT基础设施(尤其是数据中心)进行整合,而相应的云管理就是对数据中心和底层基础设施进行整合管理。具体说来有三个层面:
设备层面。需要实现对大容量设备(上万台服务器和网络设备)的管理,同时要考虑物理上分布式部署、逻辑上统一的管理需求;
业务层面。需要实现在同一个平台中实现对IT和IP设备的融合,可以从业务的角度对网络进行管理,也可以从性能和流量的角度对业务进行监控和优化;
服务层面。需要提供运维服务方面的支持,帮助IT部门向规范化、可审计的服务运营中心转变。
总的来说,淘宝目前涉及的云管理实际上就是数据中心的管理,按照基础设施管理->上层业务和流量分析->IT服务运维的次序,整合好各种资源,包括设备、应用、流量、服务等,为将来建立虚拟化资源池、对外提供云服务打下基础。
与淘宝类似,现阶段腾讯的云管理也同样集中在对底层数据中心基础设施的管理。除了关注资源整合之外,腾讯更进一步地关注资源的虚拟化和自动化。这包括两方面:首先是对虚拟化资源(包括虚拟网络设备、虚拟主机等)的管理,能够查看这些虚拟资源的状态;其次是对资源池各种资源的自动化管理,能够对物理资源和虚拟资源进行配置。总而言之,先整合资源,再进行资源的虚拟化和自动化,这些就是腾讯对现阶段云管理的要求。
云管理从数据中心开始——数据中心管理解决方案
从淘宝和腾讯这两个案例可以看出,目前的云管理还处在初级阶段,实质上是数据中心管理,其主要需求为资源的整合、虚拟化、自动化等。而传统网管采用的是以设备管理为核心的FCAPS网管模型,各种管理工具之间不易融合,很难满足数据中心各种灵活易变的业务模型和管理需求。新的数据中心管理平台应该采用面向服务架构(SOA)的设计思想,融合并统一管理资源、业务、运维这三大数据中心组成要素,通过按需装配功能组件与相应的硬件设备配合,形成直接面向客户应用需求的一系列整体解决方案,从而为数据中心的各种关键业务系统提供支撑。
图1 数据中心管理解决方案模型
如图1所示为数据中心管理解决方案概貌,其主要包括四个部分。
首先,数据中心管理需要提供端到端、大容量、可视化的基础设施整合管理方案。
数据中心除了传统的网络、安全设备外,还存在存储、服务器等设备,这要求对常见的网管功能进行重新设计,包括拓扑、告警、性能、面板、配置等,以实现对基础设施的整合管理。在底层协议方面,需要将传统的SNMP网络管理协议和WMI、JMX等其他管理协议进行整合,以同时支持对IP设备和IT设备的管理。
在软件架构方面,需要考虑上万台设备对管理平台性能的冲击,因此必须采用分布式的架构设计,让管理平台可以同时运行在多个物理服务器上,实现管理负载的分担。
另外,数据中心所在的机房、机架等也需要进行管理,这些靠传统物理拓扑的搜索是搜不出来的,需要考虑增加新的可视化拓扑管理功能,让管理员可以查看如分区、楼层、机房、机架、设备面板等视图,方便管理员从各个维度对数据中心的各种资源进行管理。
图2 数据中心可视化拓扑视图(机房、机架等)
其次,数据中心管理需要提供虚拟化、自动化的管理方案。
传统的管理软件只考虑物理设备的管理,对于虚拟机、虚拟网络设备等虚拟资源无法识别,更不要说对这些资源进行配置。然而,数据中心虚拟化和自动化是大势所趋,虚拟资源的监控、部署与迁移等需求,将推动数据中心管理平台进行新的变革。
对于虚拟资源,需要考虑在拓扑、设备等信息中增加相关的技术支持,使管理员能够在拓扑图上同时管理物理资源和虚拟化资源,查看虚拟网络设备的面板,以及虚拟机的CPU、内存、磁盘空间等信息。其次加强是对各种资源的配置管理能力,能够对物理设备和虚拟设备下发网络配置,建立配置基线模板,定期自动备份,并且支持虚拟网络环境(VLAN、ACL、QoS等)的迁移和部署,满足快速部署、业务迁移、新系统测试等不同场景的需求。
图3 数据中心虚拟化资源管理
再次,数据中心管理需要提供面向业务的应用管理和流量分析方案。
数据中心存在着各种关键业务和应用,如服务器、操作系统、数据库、Web服务、中间件、邮件等,对这些业务系统的管理应该遵循高可靠的原则,采用agentless无监控代理的方式进行监控,尽量不影响业务系统的运行。
在可视化方面,为便于实现IP与IT的融合管理,需要将网络管理与业务管理的功能进行对接,拓扑图上不光可以显示设备信息,也可以显示服务器菜单运行业务及详细性能参数。另外,数据中心带来了新的业务模型,如1:N(一台服务器运行多个业务)、N:1(多台服务器运行同一个业务)和N:M(不同业务间的流量模型),这些业务对于数据中心的流量带来了很大的冲击,有可能会造成流量瓶颈,影响业务运行。
因此可以对诸如流量分析软件进行改进,提供基于NetFlow/NetStream/sFlow等流量分析技术的分析功能,并通过各种可视化的流量视图,对业务流量中的接口、应用、主机、会话、IP组、7层应用等进行分析,从而找出瓶颈,规划接口带宽,满足用户对内部业务进行持续监控和改进的流量分析需求。
图4 数据中心业务流量模型
另外,数据中心管理还需要提供可控、可审计、可度量的运维管理方案。
对于负责运行数据中心的企业IT部门经常遇到以下问题:
IT部门的工作量难以衡量与评估;
故障处理有较大的随意性,出现问题后难以找到责任人与处理办法;
技术人员的流动增大IT管理难度,只有依赖经验丰富的老管理人员,新人一时无法接手管理;
IT部门的成本不好控制,投入产出的效果不明显。
因此,必须考虑引入运维管理,参考IT服务管理的最佳实践——ITIL管理模型,结合企业内部的人员、技术、流程和其他条件,通过用户服务平台、资产库、知识库等工具,对常见的故障处理流程、配置变更流程等进行梳理和固化,加强服务响应能力,及时总结相关经验,提高IT部门的服务交付能力与服务支持能力。
结束语
云计算是IP技术与IT技术两大领域的结合体,因此云管理不仅需要从底层资源的角度出发来保障业务和性能,也要从业务和性能的角度出发来优化网络。这意味着对云的管理需要采用全新的管理模型和灵活的功能架构,并且充分考虑基础设施、技术趋势、业务运行、运维服务等各种管理要素,建立一个标准化、开放式、易扩展、可联动的统一智能管理平台,实现资源、业务、运维融合联动的精细化管理。
随着云的建设重点从数据中心向公共云、私有云、混合云等不同类型云的运营过渡,相应的管理任务也从对数据中心的管理转变为对云的管理。从现在的“看云不是云”,到未来的“看云还是云”,这是一个过程。云管理的最佳路径是从数据中心管理开始,对底层资源进行整合,并通过虚拟化和自动化进行调配,最终向云服务过渡。只要从实际出发,在实践中对数据中心管理不断进行完善,自然而然的就能迎来真正实用的云管理解决方案。