数据中心NFV技术可靠性研究

数据中心NFV是通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理,使网络设备功能不再依赖于专用硬件,降低网络设备成本。NFV是网络运营商主推的网络虚拟化技术,这有利于大幅降低网络运营商的设备采购成本。不过,运营商需要的是高可靠性的网络,对网络可靠性要求最高,但看看我们应用了虚拟化技术的表现,2015年十大云计算宕机的收入损失超过了31 Million美元,显然这样的技术无法满足运营商的可靠性要求。运营商当然不愿意放弃自己提出来的NFV,更何况还有SDN跃跃欲试,那该怎么办?本文给出了一些提升NFV可靠性的思路。

我们需要先来看看部署了NFV 之后,对可靠性的判断准则是否发生了变化。NFV网络中增加了软件控制部分,这样可靠性评估准则要考虑服务停机时间与硬件停机时间的差异,要建立弹性软件的评估方式,这样当硬件检测到故障时,还要通报给NFV,这个过程要有延迟时间,所以需要故障检测和切换技术要比以前更精确,之前故障检测是秒级,现在就需要毫秒级,小于50MS。之前故障切换是秒级,现在就需要微秒级,在几百微秒以内。部署NFV之后,需要用新的工具来解决故障告警、根本原因分析和恢复,这是因为虚拟化技术使得构成服务的部件分散在网络多个不同的地方,检测麻烦不会像观察红灯一样简单,需要软件综合分析。

NFV环境下要提升可靠性,需要具有三个方面的处理机制:一是故障检测预测,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等等,判断有无发生故障;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,故障的相关性和优先图;三是故障恢复,根据故障位置,启动故障恢复程序,可以进行业务迁移、冗余备份、数据保护等恢复动作,通过这三步来达到提升NFV可靠性的目的。这样说很简单,实际实现起来是非常难的。就拿故障诊断来说,取决于故障检测的准确性,很多网络故障,不少的网络技术专家分析很久都无法明确原因,现在靠机器来完成,难度更大,要先将人的分析经验输入到机器中进行学习,然后由机器代替人来做处理,只有这样切换才来记得,任何一个环节有人为的介入,处理时间都会被拉长,业务就会受到影响,NFV采用软件自动控制的方法,可以将故障发现、排查和隔离过程控制到毫秒级,达到网络高可靠性的目的。

仅具备这些处理机制还远远不够,NFV环境下故障检测的数据规模大,硬件和软件解耦导致涉及的网络层次更多,很多数据还可能不能反映出故障原因,甚至网络已经故障了这些数据还表现正常,这样就不会触发故障诊断。还有NFV环境下,发生故障传播快和容易相互干扰,易于产生不可预知的故障,这些都会给诊断故障带来很大难度,就算分析出来故障位置,不同的软件可靠性评价准则不同,执行的恢复动作也有差异。有些故障是需要中断业务恢复的,有些故障是做局部微调就可以恢复的,当需要做这种恢复决策时,就算是人为评估都很难把握,更何况将这个决策权交给软件去做,误判一定时有发生。NFV技术也是一种全新的网络技术,新的系统意味着有更多的软件BUG。

为了进一步提升NFV技术的可靠性,还要在多个方面下功夫。运营商网络对可靠性的要求是5个9,而x86的可靠性通常只有2~3个9,所以基于x86实现的NFV可靠性不够高。这时可以考虑虚拟机分散开来,将同一个网元功能的多个虚拟机散布到异址物理设备上,降低单点故障对网络的影响。通过对虚拟机进行热备份,专有设备备份及建立通用备份池对多个网元的虚拟机进行备份的方式,提高网元可靠性。还要在故障检测上下功夫。比如支持黑盒故障的检测,支持未知错误的监测,检测时间要快,还有就是可扩展性好。将这些检测数据获取到了以后,通过机器学习的方式进行检测,将低维数据变化到高维数据。一般通过机器学习的检测有:有监督的学习,无监督学习和半监督学习,它们区别在于是否需要标签训练数据。在NFV技术中一般采用无监督学习方式。通过机器学习就可以引入很多的数理统计技术,来增强分析的准确性,这些技术可以来自基于统计、基于深度,基于密度和聚类等等方面综合分析出来结果。NFV技术可以采用动态自适应快速故障检测技术,如SOM算法、LOF算法、Bayesian Network算法等。对CMS、CNFM等管理系统同样采用备份、带外管理等机制,进一步提升系统可靠性。当通过这些一系列的软件得到故障原因后启动自动告警、自动切换等一系列措施,实现系统故障自愈,还需要支持在网络软硬件解耦后进行端到端的故障定界定位,对各个组件的安全信息比如日志、告警和异常输出等进行智能分析和关联,快速定位或提前预测系统安全隐患。谷歌数据中心的建设思路在可靠性方面考虑良多,在处理宕机这类故障的时候,可以依靠软件迅速地平滑过度,实现任务转移,以最快的速度保证SLA指标。

NFV将是一种革命性的新技术发展趋势,将对网络技术发展带来深远的影响。NFV技术在数据中心,尤其是运营商的数据中心领域应用获得了极大的认可,是运营商一直在推广的网络技术。虽然NFV在可靠性方面还有待提升,它真正走向市场和普及,还会面临众多的问题和挑战,但这并不妨碍很多运营商愿意尝试,NFV技术必将快速走向成熟。

本文作者:佚名

来源:51CTO

时间: 2024-08-02 07:59:19

数据中心NFV技术可靠性研究的相关文章

基于Hadoop的智能调度云数据中心关键技术研究

基于Hadoop的智能调度云数据中心关键技术研究 华北电力大学   杨龑骄 本文针对智能电网调度云数据中心的三个关键问题进行了重点研究.第一.云数据中心内部网络结构.在分析对比传统网络结构算法以及最新提出的BCube.DCell数据中心网络结构算法的前提下,提出了更具有扩展性.容错性的PCube网络结构算法:第二.Hadoop云平台的副本存储策略.针对Hadoop现有副本存放策略的不足,本文研究目前学者提出HDFS改进存储策略--CoHadoop副本存储策略,并在此基础上对其智能性加以改进,依靠

《数据中心虚拟化技术权威指南》一第2章 数据中心网络演进2.1 以太网协议:过去和现在

第2章 数据中心网络演进 数据中心虚拟化技术权威指南 本章节将讲述以太网协议的发展,设计数据中心以太网络的时候需要考虑的最重要因素,以及虚拟化如何在这些项目实施中克服常见的局限性.本章包含以下几个主题. 以太网协议的过去与现在: 数据中心网络拓扑: 网络虚拟化优势. 数据中心网络的主要目标是将服务器数据传输至客户端和其他服务器.很明显,数据中心是为提供数据服务而建设的,网络可以精确地定义设备的真实效率. 为了与今天数据中心环境的可靠性和成长性相配,数据库中心网络必须包含以下特征. 可用性:能够健

畅想智能存储,2017中国计算机大会“下一代数据中心存储技术与系统”论坛举行

10月27日,2017中国计算机大会(CNCC2017) 技术论坛"下一代数据中心存储技术与系统"在福州举行.围绕论坛主题,众多学术界顶尖学者与企业界重磅嘉宾现场对新型存储器件.多核服务器.高速网络等新硬件的发展以及下一代数据中心的存储技术和系统所面临的机遇与挑战进行了深度研讨. 众所周知,存储基础架构与系统技术是大数据与云计算数据中心的重要基石.围绕"下一代数据中心存储技术与系统",在本届论坛主席中科院计算所副研究员蒋德钧.阿里巴巴资深专家朱家稷的组织下,多位学术

《数据中心虚拟化技术权威指南》一1.2 数据中心虚拟化起源

1.2 数据中心虚拟化起源 数据中心虚拟化技术权威指南 本书的主要目标之一就是正确描述那些所谓数据中心虚拟化趋势的技术特征.在最初的研究过程中,通过切身体会,我遇到过各种对虚拟化的单一解答或仅仅单方面的定义,例如: 虚拟化使得您可以在一台物理机器上运行多个虚拟机,每个虚拟机跨越多个环境,共享一台物理计算机的资源: 虚拟化提供了一个"物理到逻辑"的存储设备抽象,它提供了对复杂的.消耗资源的基础设施和实体的一个简单和一致的表征: 网络虚拟化指的是叠加在一个共同的物理基础设施之上,逻辑隔离网

数据中心网络架构特征研究

网络是数据中心的重要组成部分,是连接数据中心大规模服务器进行大型分布式计算的桥梁,网络对于数据中心的重要性不言而喻.随着数据中心流量从传统的"南北流量"为主演变为"东西流量"为主,对网络带宽和性能提出了很高的挑战,还有虚拟化技术的应用需求,这些都需要网络做出改变,这使得数据中心网络架构的研究成为技术热点,传统的三层(接入层.汇聚层和核心层)网络架构已经不合适新一代数据中心的发展,本文就来讲述一些新兴的网络体系架构技术,让大家对最前沿的网络架构研究有所了解.既然是研究

数据中心制冷技术的应用及发展

1.前言 随着云计算为核心的第四次信息技术革命的迅猛发展,信息资源已成为与能源和材料并列的人类三大要素之一.作为信息资源集散的数据中心正在发展成为一个具有战略意义的新兴产业,成为新一代信息产业的重要组成部分和未来 3-5 年全球角逐的焦点.数据中心不仅是抢占云计算时代话语权的保证,同时也是保障信息安全可控和可管的关键所在,数据中心发展政策和布局已上升到国家战略层面. 数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含配电系统.制冷系统.消防系统.

三大数据中心存储技术之间的较量

存储是数据中心不可缺少的重要部分,任何数据中心数据最终都要放置到存储设备上,随着数据中心规模越来越大,需要存储的数据量也越来越大,这对存储设备提出了更高的要求.不过和其它领域的技术不断推陈出新相比,存储领域似乎一直不温不火,鲜有人提及.甚至现在以太网技术的火热大有替代传统存储技术之势,这对于传统的存储厂商来说可不是什么好消息,软件定义存储SDS也是跟在了以太网的软件定义网络SDN推出之后,是这两年存储领域唯一的热点技术.其实存储领域不乏一些巨头企业,如EMC.NetApp.IBM.HP等,各个都

数据中心冷却技术将何去何从?

数据中心是数字经济的关键,但也是能源的主要消耗者.据估计,全球数据中心消耗的电能占全球能源消耗量的2%,其每平方米消耗的电能是普通办公室的10倍,而这一能源过度消耗的主要原因是部署了冷却系统. 以数据和信息通信技术闻名的专业厂商AURECON公司总裁彼得•格里夫斯表示,"更令人关注的事实是,目前的预测表明,全球信息通信技术的要求仍然需要冷却技术,随着使用智能手机的人越来越多,以及高速网络的增长,这种扩张远远超过了能源效率的提高."他撰写的"冷却ICT关键环境将何去何从?&qu

全面分析数据中心布线技术的创新

本文向大家介绍了数据中心布线的创新技术,可能还有很多人不了家数据中心布线,没有关系,看完本文您 肯定有不少收获,希望本文能教会您更多东西.在近日澳大利亚布里斯班举行的思科年度用户 大会上,一向低调的基础网络连接方案成为一大亮点.此前,不少人 认为布线技术创新仅仅是速度提升的代名词,它何以成为网络技术的重点?作为此次大会的顶级合作伙伴,康普SYSTIMAX Solutions布线系统所展示的综合布线领域的系列创新技术和先进解决方案则让与会者刮目相看. 互联网流量每12个月翻一倍的速度让基础连接产生