大数据对网络运维意味着什么?

2016年对于SDN来说无疑是利好的一年,在金融、电信、互联网等行业SDN产品和解决方案开始规模化部署,许多传统行业对于SDN的需求也初现端倪。《2016~2017年中国SDN市场发展状况白皮书》显示,2016年中国SDN软件市场(主要指SDN控制器及相关的软件解决方案与服务)规模达到了7.2亿元,比2015年增长30.9%,预计到2021年,市场规模将达到46.7亿元。同时,白皮书也指出了企业传统网络架构面临的四大难题。

  • 难以满足业务灵活部署的需求
  • 难以满足业务资源整合的需求
  • 难以满足场景化的需求
  • 难以满足新的运维需求

在讨论运维难题的时候,分析师认为传统运维方式无法对整个网络的流量、设备以及业务实现集中管控、统一编排。造成这个问题的原因除了网络架构的变迁,不容忽视的一点是,现在网络中的数据量实在是太大了。软件技术的发展支撑了更多智能设备的接入。今天我们不断地从各种源头搜集和存储网络交易、社交媒体动态、移动设备以及各类不知道名字的自动化传感器产生的数据。

在这种情况下,爆炸式增长的数据的存储和计算需求促使存储硬件、网络基础设施以及处理海量数据的计算方法不断改进。传统运维从只对网络基础设施和流量进行简单管理到突然增加对业务和复杂流量进行管理必然力不从心。

Data is useless until you use it to make decisions

2017年初,思科斥资37亿美元收购了AppDynamics,这是继14亿美元收购物Jasper的又一大动作。媒体视之为思科战略转型的标志,在笔者看来,思科是在布局其大数据生态。

大数据面临的挑战不仅仅是数据的大小,更是如何用新的方法从各类数据平台处理数据。跟传统的商业智能(BI)相比,大数据分析能为企业网络管理带来质的改变,其价值也更大。

追根溯源的能力

现代企业网络中每秒有百万级的数据包在传输,当需要进行troubleshooting的时候,有太多的地方要去检查,按照传统的方法,即便是5分钟的数据也需要几个小时甚至几天来分析处理。倘若多数情况下的问题不是网络的问题,应用程序的代码本身也应该和网包、网流一起被拿来分析。网络管理需要弄清楚不同数据类型之间的区别。一些现有的解决方案在客户可承受的价格范围只能存储三天的流量数据,对于时间更久远的网络故障,溯源只能水中捞月。

防微杜渐的能力

变化是现在IT系统的主题,已经改变的信息并没有什么意义,相反,预测有意义的变化十分具有挑战。有时受限于网络流量的大小和带宽,一些大数据分析行为可能会引起正常业务的中断。以电商网站的大促活动为例,预演的效果并不能涵盖全部可能真实的场景。一个优秀的架构师通常能预见到现在的架构有什么潜在问题。而如今,能发现这些潜在问题的手段,多依赖大数据分析。

洞悉未来的能力

大多数传统的网络系统缺乏灵活的设计,在面对现在复杂的网络环境时无法应对。传统网络中简陋的网络监控设备无力应对复杂的虚拟化网络,更遑论从中提取出可执行的规则;而基于探测和代理技术的监控系统也无法完全覆盖underlay和overlay的网络。将所有的数据汇聚在一起利用大数据技术进行分析是企业网络团队必须首先解决的难题,因为其他的大数据分析应用已经为业务部门创造了新的商机。

企业IT团队已经实现了更快速的故障排查,通过对大数据分析技术的利用,改进网络基础设施的安全性、稳定性和可用性。未来的网络该怎么设计?也许大数据分析能带给人们一些启示。

网络运维的问题其实是大数据的问题

SDN的本质是控制与转发分离,从这个角度来看,控制的核心思想是网络中有了“大脑”,通过这个智能系统对网络设备下发指令,那么这些指令又来自哪里呢?通常我们认为,这些指令来自控制器基于已有的协议、规则对网络流量和网络行为的“审判”。而这个“审判”的过程,我们称之为大数据分析。数据分析并非新生事物,在这里,我们加了个“大”字。

任何大数据分析的应用最重要的基础环节便是采集和存储。关于采集,业界已经有过较多的讨论,本文不再赘述。笔者想从以下几个方面简单概述一下大数据分析面临的问题。

灵活扩展的存储能力

在上一篇《直面数据中心网络六大需求,六步打造面向未来的网络》文章中笔者提过,思科网络报告白皮书显示2015~2020年全球网络流量年复合增长率达到22%(注:2015年全球网络流量为72EB,2016年这一数字为88EB,1EB=1,000PB)截至2020年全球网络流量将会净增长200EB。对如此规模的流量进行采集和分析的需求必然要求较强的存储能力。

考虑到22%的增量,存储系统必须在不丧失性能的前提下具有高度的灵活和可扩展性,以便不停机弹性扩容。文件系统还必须支持诸如同时处理不同类型和来源数据的能力、把海量大数据转换成元数据的功能等等。在笔者看来,网络的问题首先是大数据存储的问题。在规划和设计存储系统的时候,应该考虑所有当下的情况以及未来的使用场景。

延时的问题

2015年前后的一段时间,IT圈很流行实时流数据处理技术;后来笔者了解到大量的公有云服务商在自己的基础设施中使用加速卡/智能卡。比如,微软通过使用FPGA技术的智能网卡提高了Azure的性能,微软的FPGA智能网卡还有加密和加速存储协议的功能。大数据分析在一些场景如社交媒体、交易数据等需要实时处理以便作出决策,这要求不能出现响应延时或者数据丢失。对需要根据实时数据作出响应决策的应用来说,这个要求会更高。

跨平台接入

随着大数据应用在各种平台和系统(尤其是物联网)上,对数据的交叉使用成为一种常规需求。公有云服务商在帮助大型客户进行数据迁移的时候遇到过较多此类案例,存储系统必须能够同时处理来自不同系统、不同格式的异构数据。数据时代的大数据生态必然要求软、硬件尽可能的兼容、统一。IDC近年来一直致力于通过采用标准服务器来优化网络和摆脱厂商绑定;世界上最先进的数据中心如谷歌、微软、领英、Facebook等都在向着这个方向发展。

安全的问题

安全是云计算的基石,之所以这么说源自数据对于我们的重要性。比如,最近大家热议的某公有云厂商租户隔离的问题;多数人认为VPC是目前成熟的、可行的租户安全解决方案,这也是多数云厂商产品化的方向。事实上层出不穷的安全事件都是针对数据的窃取或破坏。由于数据交叉使用,现有的IT系统安全机制需要作出较大调整,而存储也需要在不牺牲性能和可扩展性的前提下,满足对这些数据处理的安全要求。

成本的问题

大数据意味着高成本,对数据分析来说,计算资源显然没有存储资源的开销大。有人认为采用开放标准硬件能节省大量的成本(约30%~80%不等)。曾经轰轰烈烈的去IOE和政府倡导的国产化,在节约成本方面无疑有很多值得称道的地方。随着OpenStack的遍地开花,开源存储技术也获得了长足的发展。企业选择不使用市面上现有的商用存储方案,对数据去重、压缩备份,用自己定制化的存储硬件等措施,可以显著降低成本。

总结一下,大数据的价值已经得到普遍的认可,看一下自动化之于网络运维的效果我们相信,未来是令人振奋的,但更深层次的价值有待业界进一步发掘;通过研究不难发现,网络运维的问题其实是大数据的问题,而大数据分析本身尚处在初级阶段,有较多亟需解决的难题。那么,在这条路上我们该怎么走?

原文发布时间为:2017年3月2日

本文作者:云杉网络 

时间: 2024-09-27 17:58:00

大数据对网络运维意味着什么?的相关文章

数据中心网络运维一指禅

数据中心网络如何高效运维?这个问题经常困扰着数据中心的运维技术人员,运维技术人员疲于处理各种网络故障.变更.检查等事物,没有时间学习新技术,网络运维技术人员的工作往往做得非常辛苦,经常加班加点处理,然而问题似乎越是解决反而越多,陷于一个恶性循环,运维的人员不停地加班,问题不断出现,不断被解决,似乎永远都有处理不完的事情.实际上,网络运维也是一门学问,已经演化成为一门技术学科.有些人整天忙于处理这样那样的问题,但是数据中心网络依然问题不断,而有的人似乎整天也没有很多事情,数据中心业务有条不紊地进行

云时代如何简化数据中心网络运维?

SDN,在经历了犹豫彷徨.百家争鸣之后,目前已成为企业CTO的坚定选择. SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加复杂.而当前,整个行业的目光多聚焦在前者而忽略了后者. 随着SDN的部署如火如荼,一丝忧患也隐隐浮现.2015年12月,管理行业研究机构EMA(Enterprise Management Associates)针对100多家企业的调查结果显示:70%左右的客户对于现有管理运维体系是否适用于SDN场景表示担忧.Gartner于 2015年7月发布的通

云数据中心网络运维的苦与乐

前几年大家讲 SDN 比较多的是怎样利用控制器,像 OpenDayLight.ONOS 这些东西,其实在讲怎样做一个 Driver.怎样做控制.大概从去年开始,SDN 开始跨入应用的时代,现在大家更多地在讲实际要做的事情.应用场景是什么.由于大家对 SDN 有多种不同的理解,在本文中我想把话题聚焦一下,落到云数据中心的网络运维这个点上,分享一些运维中的实际例子.没有大的篇章,只说说我们遇到的那些苦与乐. 因为本文话题的场景是云数据中心,所以我们有必要先看一下云数据中心里面的网络是什么样子. 简单

用大数据思维做运维监控

今天一大早就看到了一篇文章,叫[大数据对于运维的意义].该文章基本上是从三个层面阐述的: 工程数据,譬如工单数量,SLA可用性,基础资源,故障率,报警统计 业务数据,譬如业务DashBoard,Trace调用链,业务拓扑切换,业务指标,业务基准数据,业务日志挖掘 数据可视化 当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现.并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得活起来.比较凑巧的是,原先百度的桑文峰的分享也讲到日志的多维度分析,吃完饭的时候,一位优酷的朋友也

用大数据思维做运维监控是怎样一种体验?

早先就看到过这样一篇文章,叫<大数据对于运维的意义>.该文章基本上是从三个层面阐述的:   工程数据,譬如工单数量,SLA可用性,基础资源,故障率,报警统计 业务数据,譬如业务DashBoard,Trace调用链,业务拓扑切换,业务指标,业务基准数据,业务日志挖掘 数据可视化   当然,这篇文章谈的是运维都有哪些数据,哪些指标,以及数据呈现.并没有谈及如何和大数据相关的架构做整合,从而能让这些数据真的变得活起来.   比较凑巧的是,原先百度的桑文峰的分享也讲到日志的多维度分析,吃完饭的时候,一

网络运维团队如何应对最新的黑客威胁?

本文讲的是 网络运维团队如何应对最新的黑客威胁?,企业网络上的数据存在极高的价值,因此成为恶意黑客觊觎的目标.重大安全事件几乎已经成为了日常新闻,而网络团队对现状负有的责任越来越重. Network Instruments最近发布了2015年网络状态研究报告,报告阐述了在网络安全对抗中,技术人员是如何重新分配IT资源,并保护网络数据的完整性.其中一个值得注意的改变是,企业安全团队在面对很多情景时会更多地寻求网络团队的帮助,这其中包括识别异常行为.执导调查.采取预防性措施等. 事实上,在322位被

让大型网络运维像SOHO一样简单

随着网络规模的扩大,企业中拥有越来越多的业务系统和成千上万的终端, IT运维管理部门的压力也越来越大. 那么,这些压力源自哪些方面,哪些人会对运维方法的变革上非常敏感,而管理员又当如何化解这些压力,将大型网络的运维也能像SOHO一样进行配合和管理呢?压力源自"失控"大型网络中的系统一般是由历史建设的几个阶段累积而成,时至今日在一些大型网络中可能还存在着Windows NT RAS 服务器(NT环境下的拨号系统),这点可能对于新一代的IT 管理人员都很陌生.当然在大型网络建设的起始阶段,

【博文推荐】如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是"数据中心是一整套复杂的设施.它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接.环境控制设备.监控设备以及各种安全装置".在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂.大型数据中心往往是由很多功能不一的单元系统组成,其运维工作需要具备方方面面的知识,包括硬件.网络.服务器.存储.安全以及业务上的东西,需要一体化联动地去做好运维工作. 当一个数据中心的规模非常大,

瞻博网络推出新型EX系列交换机,扩展联合架构并改进网络运维

提供自动的.可扩展的.安全的网络产品行业领导厂商瞻博网络(纽约证交所:JNPR)近日发布两款新型的瞻博网络 · EX系列接入交换机,希望能够帮助客户针对不同规模和复杂度的园区及分支机构网络进行安全且便捷的管理.本次发布的入门级交换机EX2300和中端交换机EX3400能够为企业云技术转型提供全新的解决方案,帮助他们利用JuniperUnite解决方案中的Junos · 企业网融合技术和瞻博网络虚拟机箱等多重领先技术,通过单一管理方式来优化网络配置.这些新的解决方案同时为瞻博网络软件定义安全网络(