优云蒋君伟:自动化运维成本仍然很高

9月10日-11日,上海光大国际会展中心隆重举办了“2017上海站CNUTCon全球运维技术大会”。本次大会的主题是“智能时代的新运维”,各个公司为观众带来了他们关于该主题的思考,并分享了他们的实践经历。InfoQ有幸邀请了杭州优云软件有限公司的产品副总裁蒋君伟老师接受我们的采访。谈到对自动化运维未来的展望,蒋老师表示自动化运维必然是大势所趋,但是因为相关技术债务的存在,自动化运维的成本还很高。那优云自己的技术与产品是如何去做高效运维的呢?本次采访带你了解一二。

InfoQ:与其它同类产品相比,优云有哪些优势?
蒋君伟:要介绍优云的产品优势,我想可以简单说明一下优云是如何来的。优云来自广通,广通公司成立于2003年,14年以来一直专注于运维领域,广通的产品也随着运维行业的趋势发展,从最初的监控、CMDB、ITIL到APM,行业的客户也深入到政府、金融、运营商领域,我们对用户运维痛点与上一代运维产品的瓶颈,有深刻认识。
所以,2016年,广通成立全资子公司,推出了新一代运维产品线优云,与同类产品相比,我们有以下优势:
1. 平台化:打通运维场景,避免运维信息孤岛与运维工具碎片化的情况
2. 自动化:结合自动化操作编排,实现故障自愈与运维自助式服务
3. 社交化:通过ChatOps App,由运维机器人辅助运维人员,随时随地完成运维工作
4. 大数据:内置运维数据分析算法,有效解决数据中心容量规划难题
5. 分布式:支持水平扩展,可随资源规模增长而增加管理能力

InfoQ:优云产品采用了哪些核心技术?
蒋君伟:优云产品的核心技术包括:
1、 安全、稳定、低负载、易扩展的采集代理平台
采集代理是运维体系中非常重要的落地工具,由于企业用户的环境非常复杂,所以采集代理在技术设计需要非常注意:
优云Agent主要使用Python与Java技术平台实现,所以在服务器的兼容性上有很大保障;
为兼容被防火墙与网闸隔离的网络,Agent总是单向对Server发起连接,拉取作业或上报结果,这种方式也可以让Agent集群形成一个网状级联,兼容多级网络;
同时Agent会主动降低进程的优先级,以降低CPU消耗,控制内存与磁盘使用,将对部署服务器的影响降到最低;
Agent使用强引擎弱脚本的设计思路,内置了ssh/wmi/snmp/ipmi等交互协议,允许用户快速使用shell/python/groovy等脚本快速扩展Agent能力。
2、 可视化埋点技术
优云UEM产品可以实现用户Web端与移动端的用户操作体验监控,不像传统的用户体验监控产品,我们不需要预先埋点,我们可以帮助产品经理生成用户的操作热区,并直接在产品界面上操作,决定要关注哪些用户的操作行为。这个埋点依赖两个部份完成:
用户交互数据的全量抓取技术:通过在应用端部署前端agent js, agent会监听页面中的相关操作,比如点击事件,超链接等,将相关数据(比如来源、去向)全部记录下来,并每隔1分钟进行上报,由服务端存储分析。
用户界面元素标记技术:可以直接在被监控应用端进行框选,设置页面元素标记,这些元素会和全量采集的数据进行匹配(比如通过匹配css选择器、文本等)。通过这种可视化标记的方式就可以直接关注用户需要的数据,无须开发者手动对页面元素进行埋点。
3、全链路监控技术
优云UEM与APM,已经将用户端的操作与服务端对此操作的执行过程结合在一起,通过UEM的用户端请求染色,可以跟踪每一个请求操作到服务端,针对服务端的常用RPC协议,如http/dubbo/rmi等,也可以通过嵌入式agent进行染色与跟踪。因此,一笔操作所经过的每一个计算节点与数据存储节点的调用堆栈,我们都可以捕捉到,并能呈现分析其中的瓶颈节点与代码。
4、 图像质量分析算法
优云VideoMon产品使用的图像与视频质量分析算法,可以快速完成摄象头成像质量的分析,其中诊断的准确性与快速是技术关键。使用信号波动检查、像素灰度值分析、非灰色像素集中区域分析、图像弱边缘数分析等算法,来实现视频信号丢失检测、偏色检测、清晰度异常检查等功能。

InfoQ:谈谈对全栈双态运维解决方案的具体理解?
蒋君伟:这里有两个关键词:
1. 全栈
全栈体现了解决方案的覆盖面是完整的,运维的对象,可以从基础架构到业务应用;从物理资源到云资源;从用户端到服务端的全链路运维。
2. 双态
双态则有两层含义。从技术层上来说,双态要求产品能同时进行传统IOE架构的运维,以及x86架构的云资源运维;从管理上来说,应能支撑ITIL与DevOps这两种运维体系。

我认为全栈双态运维解决方案,应该能满足这两个关键词。

InfoQ:优云产品解决方案已经应用到了哪些行业和哪些客户中?具体效果如何?
蒋君伟:自16年7月发布我们的产品后,很多用户都非常踊跃,到目前我们也实施了不少典型案例:
1、 某金融双态方案,实现云资源交付的服务自助化
金融目前是最典型的双态运维场景了,一方面金融核心系统要保持非常稳定,是稳态,另一方面移动支付渠道又要求应用的迭代与响应非常敏捷,是敏态。
通过优云的Monitor,我们实现了传统业务与互联网业务的全栈监控;并且通过ITSM实现流程自助服务,业务部门提交的资源申请工单,在审批通过时,借助CMDB与Automation,实现业务部门的资源交付、应用部署自助化。

2、 某部委业务大数据分析监控方案
此客户全国拥有数万的站点需要上报业务数据,这些数据的处理要求非常高的时效性与准确性。由于站点的规模变大、数据种类增加以及数据监控粒度的增加,旧的业务支撑保障系统已无法满足对业务数据的实时监控需求。
优云Store运维数据平台具有大数据分析能力,能实现这些上报的业务数据实时流数据处理,结合CMDB中的站点基本信息,实现监控指标的多个管理维度分析,并通过Show大屏可视化呈现全国的数据质量。

3、 某海外平安城市运维项目
平安城市中存在大量的IT设备与海量的物联网设备需要运维管理,其运维团队对于整个城市的摄象头故障总是头痛不已,一直处于被动运维的状态。
优云VideoMon能快速完成上万路的摄象头图像质量分析监控,大量减少运维团队的巡检成本。对存在故障的结点,优云Alert通过告警热图功能,从地域、类型、业务等多个维度,为用户呈现故障分布情况,快速帮助用户找到问题根源,缩短故障修复时间。

InfoQ:谈谈对自动化运维的展望。
蒋君伟:自动化运维必然是大势所趋,并且会越来越快地改变我们的运维工作,目前我们所处的时代是一个旧与新的过渡时代,就像集装箱发明后的航运业一样。
在集装箱刚开始被发明出来的阶段,大家从心理到技术上都没有作好准备,包括货主、公路、铁路、港口、吊车到轮船,都没有为集装箱做好配套。但由于几个关键事件,集装箱的标准化,以及随之配套的操作、运输手段,很快就改变了全世界。
我们现在也是,虽然容器及服务、函数及服务技术已经出现,但我们还有太多的历史债务需要偿还,所以现在的标准化与自动化的收益还不明显,自动化运维的成本还很高。
但随着历史债务的解决,新的应用研发、运维手段,都会围绕着这些新技术配套起来,到时候自动化运维就非常容易实施与获得巨大收益。
最后,我们运维人员也会像码头工人一样,需要改变我们的技术工作内容与深度,否则就会被下岗。

了解更多优云产品,请访问优云官网 www.uyun.cn

嘉宾介绍:
蒋君伟,优云产品副总裁,IT运维领域的十年老兵,先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了国内多个全国性的网络管理与运维管理项目。现从事优云新一代数据中心运维产品研发工作,主要负责产品线规划、核心技术研发、研发团队建设与运维咨询等工作。

时间: 2024-09-12 19:48:10

优云蒋君伟:自动化运维成本仍然很高的相关文章

优云蒋君伟:运维监控大数据的提取与分析

本文内容整理来自[敏捷运维大讲堂]蒋君伟老师的线上直播分享.分别从以下3个维度来分享:1.云时代监控分析的窘境:2.使用标签标记监控数据的维度:3.监控数据应用场景. 云时代监控分析的窘境 在虚拟化与容器技术广泛应用的情况下,运维对象大规模地增长,监控平台每天存储的指标都以亿计,所以监控数据如今已经成了大数据.传统的监控工具在这种场景下,对于数据的提取分析,已经力不从心,反而成为了运维的负担. 我们用一个典型的互联网档案分析应用举例说明: 这个应用支持容灾与负载均衡,它部署在三个数据中心,并同时

优云软件:双态运维下,老司机是怎么玩CMDB的?

行业内有个科技公司,CMDB前后建设12年,重构了N次,一言不合就重构,我深深的被这种屡拆屡战,初心不改精神所折服.我真心想问下做CMDB的兄弟,各位是怎么熬过来的?请不要回避,其实我们都曾被这样虐过! 近几年我司承建国内很多传统行业的CMDB项目,坦白的说,随着互联网+热潮的冲击,因很多传统企业也慢慢的在转变业务,把很多传统型的业务互联网化,或者开辟新型业务来适应瞬息万变的互联网,这样CMDB越发吃力,使出吃奶的力气在频繁应付各种用户需求,有种烈士暮年,壮心不已的悲怆,看的着实让人心疼. 另外

优云云监控:先定一个运维小目标,比方监控它10000台主机

"想做世界最好是对的,但是最好先定一个能达到的小目标,比方说我先挣它一个亿.",王首富云淡风轻地给各行各业提供了一个很好的Roadmap,包括我们运维.的确,如今数据中心的规模增长速度也已像一匹脱缰的野马,各地都频频建设起超大型数据中心.按工信部的定义,超大型是指规模大于等于一万个标准机架的数据中心,考虑到虚拟化技术的使用,实际上需要运维的主机规模很容易超过十万的级别.所以,首富说的目标离我们也不远,也许很快就可以达到. 而如此大规模的数据,其运维的难度可想而知,我们来逐个分析应对看看

细说自动化运维的前世今生

作者介绍 朱祥磊,山东移动BOSS系统架构师,负责业务支撑系统架构规划和建设.获国家级创新奖1项.通信行业级科技进步奖2项.移动集团级业务服务创新奖3项,申请发明专利13项.   系统规模的不断发展以及应用软件架构的发展,推动着自动化运维的演进.因此在说自动化运维之前,需要先说说应用软件架构的发展简史.回顾过去,应用软件架构先后经过了单块架构.多层架构.服务化架构.分布式.微服务架构等:   单块架构    应用软件发展早期,系统规模一般很小,特点是应用功能集中.代码和数据中心化,表现为一个软件

妈妈帮上云之路:云上平台架构与运维实践

摘要:本次阿里云行业圆桌论坛上,妈妈帮平台开发总监胡兴邦.妈妈帮运维主管张楠.阿里云业务架构师刘欣(花名:昕晖)与阿里云MongoDB高级技术专家杨成虎(花名:叶翔)共同探讨了妈妈帮的上云实践之路,云上架构设计.数据库选型.安全运维实践以及在这个过程中阿里云如何帮助妈妈帮解决遇到的问题.对话行业大咖,引领云端科技,畅谈云上话题,尽在阿里云行业圆桌论坛. 以下内容根据阿里云行业圆桌论坛视频整理而成.视频传送门,点这里哟 本期嘉宾介绍:胡兴邦,妈妈帮平台开发总监:张楠,妈妈帮运维主管:刘欣(花名:昕

半自动化运维之服务器信息维护

在很多的时候,随着工作的持续开展,可能会接手更多的服务器资源,这个时候我们手里就不但是一两台服务器那么简单,可能几十个,上百个,甚至上千个,这个时候服务器信息的维护就变得额外重要,抛开业务线的规划,对于DBA来说,掌握服务器的信息,做到知根知底,才能在问题发生的时候合理处理问题. 服务器信息可以分成几个方面来看,比如操作系统情况,内核版本,硬盘,内存,空间使用情况,累计运行时间,数据库实例运行时间,系统中的swap争用情况等等,尽可能根据实际的情况进行一些维度的划分和细粒度的归纳. 比如说在生产

优云CMDB专家实践谈:自动化运维的基石CMDB

CMDB是什么? 运维百花齐放繁荣景象的同时,也让碎片化问题产生:每个人都想整合运维平台,但是往往事与愿违. CMDB就像一个人的大脑核心,是一个信息协调库,其存储的资料是协调身体完成各种复杂运动的信息来源.  我心中的CMDB . 碎片整合 面向运维工具的碎片化场景,是盘活整个运维管理的数据核心 . 元数据库 提供运维活动的基础元数据,是唯一可信的运维配置数据服务 . 场景驱动 为运维联动提供数据驱动,可协调工具来完成各类自动化场景    ​自动扩容+自动监控 CMDB如何建设? 痛点现象与对

中小企业基于云的自动化运维实践二则

案例1:基于云的运维自动化 我们是小规模的公司,搭建在 AWS 上的服务,主要使用 Ruby on Rails,并实现了应用的水平扩容. 在专案一开始的时候只有一台 EC2 就可以跑了,后来因为专案越做越大,开始做平行扩充以及 SOA,因此我们导入了 Chef 做自动化运营,主要使用 Chef 做机器的安装及部署,使用 Cloud Watch 做机器与 Application 的效能监控,在每次 deploy 的时候做AMI,当资源负担到达设定值时,Chef 会使用最新的 AMI 开一台新的机器

阿里云资源编排服务正式商业化 基础设施迎来自动化运维时代

近日,阿里云资源编排ROS(Resource Orchestration)服务正式商业化,阿里云产品家族再添管理利器. 资源编排服务(以下简称ROS)支持用户通过模板文件定义所需的云资源,描述资源间的依赖关系和配置详情,并自动完成资源的创建和配置,以达到自动化部署.运维等目的. 作为一种自动化运维工具,阿里云ROS屏蔽了底层资源操作的复杂性,使得对基础设施资源的管理通过简单的代码就可以实现. 告别手工运维 DevOps加速普及 云服务的一大优势是能够按需获取IT资源,所以越来越多的用户把应用系统