云计算在国内有个有趣的现象,它在技术领域掀起热潮的同时,也产生了不少“中国特色”的“文学”作品,见诸于各学者、高管和专家高屋建瓴的云计算预测和顶层设计。它们往往带有一定的中国特色,叙述架构的形式工整(如“云计算的一二三四五”),活用骈句(如“云计算和海计算”)、类比(如“像用水一样使用云计算”)和口号(“把烂机器组成云”)。
然而理想丰满现实却不免骨感,真实世界总没有想象的那般工整,未经实践的“大处”着眼,往往容易忽略致命“细节”,发现问题时往往积重难返。撰写本文的目的便在于抛砖引玉,简单谈一谈这些细节。由于经验所限,本文仅涉及“基础架构即服务(IaaS)”型私有云。
省钱的细节
所有项目开始前,都要思考清楚为什么。“节省投资”、“降低TCO(Total Cost Ownership)”往往是私有云的卖点,这就涉及到计算投资回报率ROI(Return On Investment),或是考虑行业基准折现率的净现值NPV(Net Present Value)。这类分析通常需要一定的专业知识,因此云计算厂商也提供了一些自动化工具,帮助欠缺这一知识的IT人员进行计算。然而如果不注意细节,往往会在万里长征第一步上栽跟头。
在一个19台服务器将做P2V迁移的小型项目中,我们用VMware的ROI TCO Calculator(http://roitco.vmware.com/vmw/ )来计算它的投资回报率,通过页面输入相关参数,ROI结果达到185%,投资回报周期(Payback)为1.7年。从结果来看,这样的数字让人备受鼓舞,然而仔细分析,却发现了以下一些假设上的缺陷,导致了最终结果的失真。
虚拟化产生的某些额外的软件成本(如vCenter搭建所需的Windows Server、数据库等)并没有计算在内。
电费收益上的计算,忽略了虚拟化架构中共享存储(存储设备、光纤交换机等)带来的新成本。同时类似于电源管理功能DPM(Distributed Power Management)带来的收益在实际应用中很难兑现(将ROI TCO Calculator计算工具用于上述项目,号称可以通过DPM节省近21.5%的电力)。
虽然服务器管理效率得到提高,但没有落实到具体运维人员的削减、人力成本的收益无法兑现等,同时共享存储的运维成本并没有考虑进去。
空间成本同上。没有考虑共享存储(存储设备和光纤交换机等)会带来新的空间需求。
由于要建共享存储,所以分析工具采用“每单位存储估价”ד存储单位”的方式进行换算,成本估算结果会比实际情况(新购所需存储)低。
在被计算的四年周期内,并不会因为效率提高而裁减运维人员,同时客户自营机房,空余出来的空间也不能在所产生的真正成本上折现。
因此,扣除这些收益之后,发现ROI只有45%,投资回报周期(Payback)为2.8年。如果考虑行业基准折现率换算达成净现值NPV,这个结果将变得更悲观。
这一现象其实是私有云部署里的常见问题:虚拟化显而易见的硬件整合收益,会被价格不菲的虚拟化软件、新硬件(如共享存储)和新环境(如承载vCenter的2008和数据库)的开销所中和,服务器运维的效率虽然提高,但在存储运维、新技术掌握和适应上却又会产生新的人力成本投入,使得在成本上的说服力下降。这些细节,在前期的预算上,可能会被力推新技术产品和服务的厂商有意和无意地隐藏。如果自身不经过细致的消化,往往会基于错误的设想而开始投入项目。
因此,面对私有云项目,要避免人云亦云,像这样专业的ROI分析工具也存在一定的缺陷,更何况某些专家缺少依据的预测。只有直接面对“并非省钱”的现实,才能进一步激发深入细节的潜力,在计划阶段规划“微操作”来获得更大收益。对此,有以下一些建议。
硬件分级:非生产环境是最能“螺蛳壳里做道场”的。不少企业内,应用的分级比较清晰,通常会有生产、预生产、测试开发、培训等环境,但很多时候承载这些环境却常出现杀鸡用牛刀的情况,非生产环境往往和生产环境采用相同的硬件。其实硬件方面,大可不必消耗昂贵的共享存储,因为服务器本地存储往往在虚拟化平台之后大量闲置,用在开发测试环境上也可胜任。
软件分级:除硬件上按需求来分级使用外,软件层面也可采用相同的策略。如在虚拟化层采用一些试用版,或是日渐成熟的开源软件来进一步降低成本。某国际半导体公司用于全球上百个实验室的测试床私有云,便架设在ESXi试用版上。
提升运维人员的“微操作”技能:鼓励运维人员掌握一些快速可以掌握的小技巧,即使在没有vCenter的情况下,通过ESXi Shell也可以实现镜像的克隆、迁移和注册;在没有商用备份软件的情况下,通过一些开源的脚本自动备份虚拟机等;巧用全克隆和链式克隆等细节,来提升在非关键型业务管理上的成本效益。