数据中心网络设备软件自动化升级之路

随着数据中心网络规模扩大,应用协议也越来越复杂,使得网络设备的软件实现规模庞大。这些软件代码都是人写的,难免有考虑不周或者错误的地方,一旦程序走入错误分支就会引发问题,严重的会造成网络中断。我们经常用千行代码缺陷率来衡量一个软件质量的高低:CMM1级是11.95‰,CMM2级是5.52‰,CMM3级是2.39‰,CMM4级是0.92‰,CMM5级是0.32‰,即便是达到最高的五级,千行代码缺陷率也有0.32‰,这意味着一万行代码里至少可能会有3行是BUG,现在的网络设备操作系统基本都要上千万行,里面隐含的软件BUG数量可想而知,所以难免会出现这样那样的软件问题。发现问题当然要解决,可是数据中心业务全年365天都要无中断运行,全年中业务中断的时长直接决定了数据中心的等级水平,在解决网络设备软件BUG时,要尽量不中断业务,所以从数据中心大规模部署网络设备开始,设备厂商就在不断完善软件BUG修复的方法,下面就来详细说一说。

升级版本

倒退十年,那时还不叫数据中心,叫数据机房,由于互联网业务本身就不够发达,人们对业务的中断不敏感。这时重启下设备,断开十几分钟都是可以接受的,那时的网络能用就行,对速度和中断并不敏感,网络在人们的生活中可有可无。如果网络设备出现了问题,有了软件BUG,直接提供修改的软件版本,设备加载新的解决问题的版本,重启解决问题。人们对网络的要求从来没有像现在这样如此依赖,所以有了问题直接更换新的软件版本解决问题,是比较彻底和快捷的方式,很少有人想到用其它方式来解决问题。不过,随着网络业务的蓬勃发展,人们对网络的要求在不断提升,尤其是24小时全可在线访问的要求,这样通过重启设备去更换新版本的操作是很多数据中心客户都无法接受的,万不得已才会采用这种方法去解决软件BUG。如此,便出现了其它一些更好的解决软件BUG的方式。

加载补丁

打补丁解决现有网络设备软件版本的问题是目前最为通用的做法,对于正在运行的网络设备,直接打一个热补丁,将有问题的程序函数用新的函数替换掉,从而解决问题。这种方式不仅可以解决软件存在的BUG,又不影响设备运行,这种做法广为接受。不过,补丁方式不能解决所有的问题,是有条件的。首先,补丁解决的问题是有限的,如果补丁修改的函数数量过多,会导致补丁规模过大,无法制作或者会引入更多问题;其次,有些软件BUG涉及到软件的初始化或者是宏定义的函数,这些地方必须要重启设备,软件重新初始化才能调到,这样无法通过热补丁的方式解决问题,只能通过冷补丁,也就是打上补丁还需要将设备重启,然后补丁才能生效,冷补丁方式虽然能解决问题,但还是要重启设备;第三,补丁增加了系统风险,补丁是通过很多钩子函数,在原有软件版本里直接调用补丁里的新函数,如果加载的补丁过多,补丁摞补丁,就要考虑补丁之间的影响,以及对软件版本的影响。当一个软件版本的补丁数量超过十个时,就不宜再增加了,太多反而会降低整个设备的运行可靠性。

不中断业务升级版本

显然,补丁不是万能的,很多软件BUG并不能通过补丁全搞定。这时还是要想如何才能升级版本的时候,能不中断业务,于是就有了不中断业务升级技术。这种升级软件版本方式是有条件的,就是设备必须是堆叠环境或者主备环境,运行软件版本的设备业务有备份,在升级整体设备的部分板卡或功能模块时,业务切换到其它部分,保持继续运行。当完成版本升级后,再将业务切回,然后再升级备用板卡或功能模块,最终完成整体设备的软件版本升级。另外,解决问题的软件版本和原有版本差异不能太大,否则两个版本就无法做兼容升级,不兼容版本的升级依然要中断业务,所以解决问题的版本和原有版本差异性不能太大。

自动化升级补丁

现在的补丁或者是版本都需要人工去操作,像运营商的庞大网络,一个城域网就可能有上千台设备,要一一进行补丁升级,工作量巨大,且工作内容重复,枯燥乏味。我们平时用的PC操作系统,可以看到经常提示加载补丁,只要PC连接互联网,就可以自动给PC下载,然后在重启PC时,自动加载补丁,解决原有系统的软件BUG。这种方式在数据中心网络中也可以效仿,但有所不同。我们用的PC在重启的时候就加载补丁,而数据中心网络则不能随便重启,所以补丁加载的时候就会自动打上,自动生效。在数据中心里部署一个服务器,如果有网络设备补丁需要打,就将补丁放在服务器上,服务器会自动同步所有网络里的设备,然后判断是否符合加载补丁要求,如果没有问题则自动将补丁传给设备,设备接受到这个补丁后,完成自动加载,如此可以大大节省打补丁的工作量,这种方式应该是未来我们所追求的方式。同时,未来的网络设备要将软件版本内部的各个功能模块做隔离,相互尽量没有关联和影响,这样一个功能模块有问题,只改这个功能模块基本靠补丁就能搞定,这个补丁甚至可以是对整个功能模块的修改。这样加载这个补丁时,可以对其它功能模块的业务不造成任何影响,只有这个功能模块可能需要重新初始化一下,这样对业务的影响面就小得多,甚至微乎其微。

数据中心网络设备软件也在一直找寻更好的解决软件BUG的方法,相信方法会越来越好,在不影响业务的前提下,将网络设备的软件BUG自动修复。

作者:佚名

来源:51CTO

时间: 2024-07-30 23:07:06

数据中心网络设备软件自动化升级之路的相关文章

数据中心新的自动化运维技术

自从数据中心引入了云计算.虚拟化等大咖技术,立刻变了模样,这些技术大幅提升了数据中心的运行效率,给数据中心带来了诸多好处.不过,任何事情都有两面性,我们在享受新技术带来的益处时,也给数据中心运维的管理带来了不便,需要管理对象的数量.规模及复杂度均呈现指数级增长,传统人工干预.保姆式管理监控与故障处理的方式肯定无法满足要求了.比如对于公有云及大型私有云,服务器数量往往可以达到数万到数十万.百万规模,各类系统云服务及租户的业务应用负载数量,也达到了数以百万乃至千万级的程度,这样全靠人工维护不现实,必

IBM发布新数据中心管理软件VMControl

[赛迪网讯]11月20日消息,IBM日前发布了具有突破性的新数据中心管理软件.新技术有望大幅削减运营成本,同时将部署新应用程序的时间由几周缩短到几分钟. IBM推出的全新企业用VMControl 产品与IBM Tivoli 软件一起使企业首次实现对各类IT系统和虚拟技术的单点控制.该产品覆盖了UNIX/Linux.大型主机.x86.存储系统和网络. VMControl致力于帮助那些已经开始使用虚拟技术的客户.这些客户虽然在单一物理系统上创建了多个虚拟服务器或存储来降低基础架构成本,但是当他们尝试

IBM发布新数据中心管理软件

11月20日消息,IBM(NYSE:IBM)日前发布了具有突破性的新数据中心管理软件.新技术有望大幅削减运营成本,同时将部署新应用程序的时间由几周缩短到几分钟. IBM推出的全新企业用VMControl 产品与IBM Tivoli 软件一起使企业首次实现对各类IT系统和虚拟技术的单点控制.该产品覆盖了UNIX/Linux.大型主机.x86.存储系统和网络. VMControl致力于帮助那些已经开始使用虚拟技术的客户.这些客户虽然在单一物理系统上创建了多个虚拟服务器或存储来降低基础架构成本,但是当

数据中心网络操作的可视化之路

众所周知,数据中心网络设备都是采用的命令行操作界面(CLI),这种方式需要操作者有着非常专业的技术知识才能使用,而不像Windows可视化的系统,交互界面友好,操作方便.网络设备从以太网技术出现发展到现在几十年,却从来没有真正实现图形化的界面,原因何在呢?本文将带领大家去探求数据中心网络设备操作的可视化之路.PC诞生之初也是采用的命令行操作界面,随着图形化技术的发展,CPU.内存.显卡等部件处理能力的提升,可视化的操作界面成为PC的主流,尤其是Windows系统.Linux系统则两者兼具,以命令

nuPSYS公司推出一款数据中心建模软件

日前,美国初创厂商nuPSYS公司推出了一种数据中心建模和可视化软件,其重点是网络管理. nuVIZ可以采集有关数据中心建筑,IT设备和网络连接的信息,以创建数据中心设施的详细的交互式3D模型.然后,用户可以"走过"虚拟数据中心,并使用该模型来验证和优化其数据中心设计. nuPSYS公司首席执行官RezaAhy表示:"数据中心部署(包括远程,模块化和微型或边缘版本)的实质性增长为nuVIZ的应用提供了巨大的商业机会,并为数据中心生命周期提供了更高的效率." 数据中心

浅析数据中心网络设备虚拟化技术-802.1BR

如今,数据中心网络设备如何进行虚拟化被广泛关注与讨论,这是一种提升网络管理效率的有效方式.网络设备的虚拟化不同于网络虚拟化技术,强调的是网络设备之间的融合,将所有的网络设备虚拟化成一台设备,统一对所有网络设备集中式管理,这样大大提升了网络的使用率和管理效率,802.1BR就是这样的一种虚拟化技术.一般的网络设备虚拟化往往是将同种类型的网络设备虚拟化为一台设备,比如网络核心层.汇聚层以及接入层某一层的设备,有些技术也可以实现不同网络层级的设备虚拟化,但往往对网络设备数量有限制,而且这种虚拟化是强耦

第四季度数据中心网络设备销量达35亿美元

根据IHS Markit最新调查结果显示,第四季度来自包括数据中心以太网交换机.应用递送控制器(ADCs).SD-WAN以及广域网优化设备(WOA)等在内的数据中心网络设备营收达到了35亿美元,季度环比增幅为4%. 全球数据中心网络设备市场同比.环比均实现了持续增长. 就全年而言,营收达到了129亿美元,增幅达10%:除了加勒比和拉丁美洲(CALA)外,其他所有地区均实现了增长. 就第四季度而言,数据中心以太网交换机营收与去年同比增长了8%.第四季度SD-WAN营收也达到了3100万美元,全年营

数据中心网络设备不间断业务升级技术漫谈

数据中心需要全年无中断运行,提供7*24小时的全天候服务,一旦出现中断必然对业务造成影响,有时都是按秒来计算费用的,对于一些大型的互联网数据中心,中断几分钟就会减少数千万的收入,所以他们对数据中心故障是零容忍的.然而,再好的设备都不可能从来不出问题,尤其随着运行时间的延长,各种器件开始老化.软件缺陷不断暴露,出现这样那样的问题,只不过我们可以通过各种冗余设计,及时将业务切换到备用环境中,让业务继续运行,然后来排除问题.等将问题解决后,再将业务切换回来.从用户层面并不会感知到这个切换过程,依然可以

数据中心的敏捷运维之路

随着数据中心的建设规模越来越大,出现了很多大型,特大型的数据中心.这些数据中心往往拥有数万台的服务器规模,再加上互联的网络设备.防火墙.负载均衡等设备,一个大型数据中心需要管理同时运行的几万台设备,并且数据中心的业务仍然在不断变化,几乎天天都要做各种各样的网络变更,同时也不断有设备出现这样那样的故障问题.数据中心规模增加一倍,在运维上面就要增加投入数倍的力量,这样在数据中心不断扩建的过程中,运维的工作已经不堪重负,一味增加运维的投入将严重影响数据中心整体效益,而且大量投入得到的效果并不见得好.在