业务运维如何做?Docker集群、监控来帮忙

在2017游戏行业全球同服和安全攻防技术沙龙上,来自心动网络的吴涵分享了《浅谈Docker业务运维》。他主要从运维职责(部署阶段、运行阶段)、潜在的问题、选择Docker的原因、Docker集群、Docker监控、Docker未来六个方面以运维人员的角度分享了Docker的使用经验。

 

以下内容根据直播视频整理而成。

 

运维职责

大家对于Docker已经不陌生了,Docker产品在很多领域都比较火。心动网络从2015年开始接触Docker,发现Docker的整个产品模式比较适合游戏领域公司的快速发展模式,包括打包部署和发布都契合需求。

部署阶段

以前(比较大众的时期),运维同事都需要做一些部署阶段的工作,比如系统安装、编译环境、代码上传、执行编译、启动脚本。这些工作都需要运维人员在线上进行大量的手动操作,中间会出现许多问题需要人工进行定位和排查。

运行阶段

在部署完成之后,运维人员需要做服务运行阶段的工作和维护,包括配置更新、代码更新、系统更新、监控采集、故障处理。这些都是在整个运行时期,运维人员需要时刻关注的问题。

潜在问题

在接触Docker之前,心动网络也是以传统模式来部署业务和维护业务的,也遇到很多潜在问题。比如:编译环境迭代更新导致库版本升级使编译出现兼容性问题;在机器数量比较庞大的情况下去上传代码,导致代码有泄露的风险;开发部、安装部的版本出现问题,导致代码编译无法通过;在编译完成之后需要把整个服务打包,需要写启动脚本使其每次都能自己运行;代码管理方面,用到SVN或者GIT仓库管理工具,有办法去切换版本,但是发布二进制服务的时候需要很麻烦的做很多标签来定位服务对应的维护版本;服务运行之后,监控服务的运行状态比较困难;做大量工作之后发现最终高投入换来了低效率。

为何选择Docker?

在内部的测试环境使用Docker之后,发现Docker有很多优势:一次打包,各处运行;编译和运行环境分离;服务端只需安装Docker运行组件;Docker镜像标签用作版本管理;API调度管理容器,实时监控容器的运行状态;多种语言支持的SDK,可以与业务深度结合;部署模式统一,易于维护。使用Docker之后,大幅减少了在部署和监控上的精力,把更多的时间花在对接更高级的业务运行模式上。底层的很多东西直接使用Docker,时间成本大幅减少。

Docker集群

在机器节点非常庞大的情况下,由于Docker是单机的服务,所以会出现一些问题。心动网络的测试环境都是以小量机器为规模,不是特别注重节点之间的管理,但是上线之后,在庞大的集群(以百、千为计量单位)中需要一个能够统一管理的模式,即需要Docker集群模式。

在对比之后,最终选择了Docker内置的集群模式Docker Swarm。Swarm在Docker1.12之前是以独立进程的方式运行的。在Docker1.12之后,官方把Swarm集群模式集成在Docker Engine中。Swarm采用去中心化设计,分为很多角色,比如Manager和Worker,在各个节点之间的通信都是TS加密的,可以保障一定的通信安全。Swarm支持服务编排,可以把多个服务打包成一个Application来发布,比如采用Web+DB的模式。可伸缩性是指,比如定义集群里的一个启动数量为10,Swarm会根据预定的启动值以自动调度的策略来保证整个集群的预设值能够始终满足需求。Swarm具有自愈能力,很多服务是无状态的或者微服务,在一个集群里会有很多的容器,其实本地是不留存信息的,而是集中化的存在缓存或者数据库中,这些容器可以看作是一个Runtime环境,只负责处理不负责存储,自愈能力是针对这些服务出现Crash之后可以自动的在其他可用节点上再去启动新的容器来弥补已经Crash的容器,保证整个集群里的数量符合预期值。Swarm支持滚动更新,当滚动失败或者更新失败之后,需要进行回退,但是有些回退的操作比较复杂,需要回退所有的配置文件,基于Docker的滚动更新是比较方便的,因为是作为容器来发布,更新失败后,只要上一个版本的容器还存在就可以无缝切换过来,整个Runtime的环境可以保证一致。

Docker监控

关于Docker监控,官方一直没有给出一个比较好的方法,反而是很多第三方的开源项目在实现Docker监控。此时就需要对Docker API的调度非常熟悉,但是很多时候大家只是想能够很快的起一个服务能够调用Docker的API把数据存储在自己的存储中,通过前端的页面转接出来。

Docker本地CLI有Docker state指令,可以关注比较通用的监控参数,包括CPU、内存、IO使用率、网络使用率等。在有一定研发能力的基础上,可以考虑使用Docker Remote
API自己去抓监控数据,通过某种方式展现出来。Google Cadvisor是比较成熟的第三方项目,可以和Docker无缝贴合,能够监控单台物理机上面所有容器的状态,其本身是不存储数据的,但是支持加载后端的存储把数据写到存储中。Shipyard是Docker的一个核心成员开发的,带UI,本身不是做监控的,是作为Docker Front-end Web前端去管理Docker,也包含了对Docker API的调用,可以作为一个简单的监控工具来使用。

Docker未来

Docker并不是完美无缺的,在以下方面期待改进:Docker对高密度写入场景并不是特别友好,不是作为存储直接写入数据到容器中,还需要通过加载第三方的Volume或者本地的主机目录关联到容器里面来实现,对数据库写入优化不适合;Docker
Daemon API是中心化设计的,使用时如果Docker Daemon发生Crash,会导致所有的API不可用,此时不管通过命令行还是remote API都不能管理上面的容器,只能非常麻烦的重启Docker Daemon,造成业务的闪断或者各种各样的问题;API是完全没有验证的,只要抓到API地址就可以通过特定的协议交互,在内网环境问题不大,但是在外网开放API的风险成本比较高。

时间: 2024-09-20 22:02:57

业务运维如何做?Docker集群、监控来帮忙的相关文章

服务器运维-虚拟机共用mysql集群 还是lamp ?

问题描述 虚拟机共用mysql集群 还是lamp ? 大家好,场景如下: 1,使用到Mysql 业务包括 ERP软件.OA.及其他B/S业务软件 还有一些零散的小应用,包括ERP.OA最多使用人数不超过500人, 其有内部员工使用且非常重要的数据,也有对外服务的业务软件 2,自有机房,4台服务器组的vmware的虚拟化平台 3,部分业务软件俩台虚拟机冗余运行 4,mysql数据库想搭建主从.读写分离等功能 问题是: 1,所有需要使用 mysql的应用,公用同一个 mysql集群吗? 或者每个应用

Docker集群轻松部署Apache Storm

Apache Storm是一个非常常用的实时流计算框架.最近有客户来咨询如何在Docker中运行Apache Storm的问题.我之前读过一篇文章介绍Apache Storm在Docker环境的部署,The Joy Of Deploying Apache Storm On Docker Swarm.文章写的很好,但是整个过程需要从手工构建Docker集群环境开始,再一步步把Storm配置起来,虽然作者提到整个过程是"a real joy",估计绝大多数用户依然会望而生畏. 利用Dock

DockOne微信分享( 九十五):树莓派上的Docker集群管理

本文讲的是DockOne微信分享( 九十五):树莓派上的Docker集群管理[编者的话]随着IOT市场的火热发展,Docker天然的轻量级以及帮助业务快速重构的特性,将会在IOT领域迎来巨大发展潜力,甚至有可能会比它在云端的潜力更大.本文将致力于构建一个利用Rancher&RancherOS来管理运行在树莓派上的容器集群. 目前业界主流基本都是在x86架构上使用Docker,除了因为Intel在服务器领域的绝对领导地位之外,x86 CPU的确在性能上有着卓越的表现.但是近些年来,随着云计算的迅猛

Docker Swarm入门:如何搭建原生态Docker集群

本文讲的是Docker Swarm入门:如何搭建原生态Docker集群[编者的话]我们已花大量时间研究Docker及亚马逊的弹性云计算(EC2)容器服务(ECS)组建Docker容器集群的解决方案.而本文将重点阐述通过Docker Swarm搭建原生态Docker集群的方法. Docker Swarm介绍 Docker Swarm是Docker原生态的集群技术.他可同Docker或者Docker-Machine的命令行行工具配合,提供在主机集群上部署容器引擎的基本功能.Docker Swarm同

Docker 集群工具比对:Kubernetes vs Docker Swarm

从目前来看,Kubernetes 和 Docker Swarm 是2个最常用来在集群环境中创建容器的工具.这两个工具都是被创建来管理容器集群的,而且他们都把集群中的所有服务器当成一个统一的设备来使用.但是,它们在实现方法上有巨大的不同. Kubernetes Kubernetes 是基于 google 自身多年使用 linux 容器的经验创建出来的,所以可以说它是 Google自身多年操作经验的一个复制,只是 google 把这些操作经验应用到了 Docker 上. 使用Kubernetes 来

云智慧西南区总经理肖波:业务运维构建业务到IT的绿色通道

当前,互联网.移动互联网.大数据.云计算等新IT技术飞速发展,"互联网+"与"中国制造2025"等一方面催生各种各样的创新经济和商业模式,另一方面正在促进新IT技术与制造.金融.能源等传统行业深度融合,全球范围内,新IT正在掀起全行业的数字化转型浪潮.为了共同探讨新IT与传统企业融合的价值,分享各行业信息化和数字化转型的经验和成果,11月18日,由企业网D1Net和中国企业级HTML5产业联盟主办.四川CIO俱乐部和成都企业信息化促进会协办的2016成都CIO秋季沙

一键部署自动感知服务的Docker集群(一)

问:部署一套自动感知服务的集群需要几步? 答:三步! 本系列介绍如何利用阿里云资源编排服务(ROS)和容器服务(CS)轻松搭建自动感知服务的Docker集群.本文是第一篇,简单介绍如何在阿里云上部署Docker集群,带您快速体验一键部署的快感! >> 一键部署传送门 >> 背景 在云上搭建一套Docker集群还是需要很多技术储备也蛮复杂的一件的事情.一个相对基础的结构如下图所示: 搭建如上的一套环境,一般需要如下流程: 搭建VPC网络 选购ECS服务器,配置安全组访问规则,如上图所

Kubernetes集群监控指南

本文讲的是Kubernetes集群监控指南[编者的话]本文讨论了 Kubernetes 对运维监控的改变,以及我们应该如何合理得监控一个由 Kubernetes 编排的容器化基础设施. [3 天烧脑式容器存储网络训练营 | 深圳站]本次培训以容器存储和网络为主题,包括:Docker Plugin.Docker storage driver.Docker Volume Pulgin.Kubernetes Storage机制.容器网络实现原理和模型.Docker网络实现.网络插件.Calico.Co

HBase 集群监控

为什么需要监控? 为了保证系统的稳定性,可靠性,可运维性. 掌控集群的核心性能指标,了解集群的性能表现. 集群出现问题时及时报警,便于运维同学及时修复问题. 集群重要指标值异常时进行预警,将问题扼杀在摇篮中,不用等集群真正不可用时才采取行动. 当集群出现问题时,监控系统可以帮助我们更快的定位问题和解决问题 如何构建 HBase 集群监控系统? 公司有自己的监控系统,我们所要做的就是将 HBase 中我们关心的指标项发送到监控系统去,问题就转换为我们开发,采集并返回哪些 HBase 集群监控指标项