高级运维工程师的打怪升级之路

运维工程师在前期是一个很苦逼的工作,在这期间可能干着修电脑、掐网线、搬机器的活,显得没地位!时间也很碎片化,各种零碎的琐事围绕着你,很难体现个人价值,渐渐的对行业很迷茫,觉得没什么发展前途。

这些枯燥无味工作的确会使人匮乏,从技术层面讲这些其实都是基本功,对后期的运维工作会无形中带来一定的帮助,因为我也是这么过来的,能深刻体会到。所以在这个时期一定要保持积极向上的心态,持续的学习。在未来的某一天,相信会回报给你的!

好了,进入正题,根据我多年的运维工作经验,给大家分享下高级运维工程师学习路线。


初级

1、Linux基础

刚开始阶段需要熟悉Linux/Windows操作系统安装,目录结构、启动流程等。

2、系统管理

主要学习Linux系统,生产环境中基本都在字符界面完成工作,所以要掌握常用的几十个基本管理命令,包括用户管理、磁盘分区、软件包管理、文件权限、文本处理、进程管理、性能分析工具等。

3、网络基础

OSI和TCP/IP模型一定要熟悉。基本的交换机、路由器概念及实现原理要知道。

4、Shell脚本编程基础

掌握Shell基本语法结构,能编写简单的脚本即可。


中级

1、网络服务

最常用的网络服务一定得会部署,比如vsftp、nfs、samba、bind、dhcp等。
代码版本管理系统少不了,可以学习下主流的SVN和GIT,能部署和简单使用就可以了。
经常在服务器之间传输数据,所以要会使用:rsync和scp。
数据同步:inotify/sersync。
重复性完成一些工作,可写成脚本定时去运行,所以得会配置Linux下的定时任务服务crond。

2、Web服务

每个公司基本都会有网站,能让网站跑起来,就需要搭建Web服务平台了。
如果是用PHP语言开发的,通常搭建LAMP、LNMP网站平台,这是一个技术名词组合的拼写,分开讲就是得会部署Apache、Nginx、MySQL和PHP。
如果是JAVA语言开发的,通常使用Tomcat运行项目,为了提高访问速度,可以使用Nginx反向代理Tomcat,Nginx处理静态页面,Tomcat处理动态页面,实现动静分离。
不是会部署这么简单,还要知道HTTP协议工作原理、简单的性能调优。

3、数据库

数据库选择MySQL,它是世界上使用最为广泛的开源数据库。学它准没错!
也要会一些简单的SQL语句、用户管理、常用存储引擎、数据库备份与恢复。
想要深入点,必须会主从复制、性能优化、主流集群方案:MHA、MGR等。
NoSQL这么流行当然也少不了,学下Redis、MongoDB这两个就好了。

4、安全

安全很重要,不要等到系统被入侵了,再做安全策略,此时已晚!所以,当一台服务器上线后应马上做安全访问控制策略,比如使用iptables限制只允许信任源IP访问,关闭一些无用的服务和端口等。
一些常见的攻击类型一定得知道啊,否则怎么对症下药呢!比如CC、DDOS、ARP等。

5、监控系统

监控必不可少,是及时发现问题和追溯问题的救命稻草。可以选择学习主流的Zabbix开源监控系统,功能丰富,能满足基本的监控需求。监控点包括基本服务器资源、接口状态、服务性能、PV/UV、日志等方面。
也可以弄个仪表盘展示几个实时关键的数据,比如Grafana,会非常炫酷。

6、Shell脚本编程进阶

Shell脚本是Linux自动完成工作的利器,必须得熟练编写,所以得进一步学习函数、数组、信号、发邮件等。
文本处理三剑客(grep、sed、awk)得玩6啊,Linux下文本处理就指望它们了。

7、Python开发基础

Shell脚本只能完成一些基本的任务,想要完成更复杂些的任务,比如调用API、多进程等。就需要学高级语言了。
Python是运维领域使用最多的语言,简单易用,学它准没错!此阶段掌握基础就可以了,例如基本语法结构、文件对象操作、函数、迭代对象、异常处理、发邮件、数据库编程等。


高级

1、Web静态缓存

用户老喊着访问网站慢,看看服务器资源还很富裕啊!网站访问慢也许不是服务器资源饱和导致的,影响因素很多,例如网络、转发层数等。
对于网络,存在南北通信问题,之间访问会慢,这个可以使用CDN解决,同时缓存静态页面,尽可能将请求拦截在最上层响应,减少后端请求和响应时间。
如果不用CDN,也可以使用Squid、Varnish、Nginx这样的缓存服务实现静态页面缓存,放到流量入口处。

2、集群

单台服务器终究资源有限,抵抗高访问量肯定是无法支撑的,解决此问题最关键的技术就是采用负载均衡器,水平扩展多台Web服务器,同时对外提供服务,这样就成倍扩展性能了。负载均衡器主流开源技术有LVS、HAProxy和Nginx。一定要熟悉一两个!
Web服务器性能瓶颈解决了,数据库更为关键,还是采用集群,就拿学的MySQL来说,可以一主多从架构,在此基础上读写分离,主负责写,多从负责读,从库可水平扩展,前面再来个四层负载均衡器,承载千万级PV,妥妥的!
高可用软件也得会,避免单点的利器,主流的有Keepalived、Heartbeat等。
网站图片咋这么多呢!NFS共享存储支撑不过了,处理很慢,好弄!上分布式文件系统,并行处理任务,无单点,高可靠,高性能等特性,主流的有FastDFS、MFS、HDFS、Ceph、GFS等。初期的话我建议学习下FastDFS,能满足中小规模需求。

3、虚拟化

硬件服务器资源利用率很低,甚是浪费!可以把空闲多的服务器虚拟化,弄成很多个的虚拟机,每个虚拟机就是一个完整的操作系统。可以很大程度提高资源利用率。建议学习开源的KVM+OpenStack云平台。
虚拟机作为基础平台还可以,但应用业务弹性伸缩也太重量了吧!启动好几分钟,文件又这么大,快速扩展太费劲了!
好说,上容器,容器主要特点就是快速部署和环境隔离。一个服务封装到镜像中,分分钟钟可创建几百个容器。
主流的容器技术非Docker莫属了。
当然,生产环境单机Docker大多数情况下是无法满足业务需求的,可以部署Kubernetes、Swarm集群化管理容器,形成一个大的资源池,集中管理,为基础架构提供有力的支撑。
学习Docker不妨看看这个视频教程,学员评价还是不错的:http://opsdev.ke.qq.com

4、自动化

反反复复重复的工作,不但提高不了效率,价值也得不到体现。
一切运维工作标准化,例如环境版本、目录结构、操作系统等统一。在标准化基础上才能更方面的自动化,点点鼠标或者敲几个命令即可完成一项复杂的工作任务,爽哉爽哉!
因此,所有的操作尽可能自动化,减少人为失误,提高工作效率。
主流服务器集中管理工具:Ansible、Saltstack
这两个选择任意一个就行。
持续集成工具:Jenkins

5、Python开发进阶

可以再深入学习下Python开发,掌握面向对象编程。
最好也掌学习一个Web框架开发网站,例如Django、Flask,主要是开发运维管理系统,将一些复杂的流程写到平台中,再集成集中管理工具,可打造一个属于运维自己的管理平台。
具体学习思路可看微信公众号的历史文章:《启示录:如何打造运维自动化平台》

6、日志分析系统

日志也很重要,定期的分析,可发现潜在隐患,提炼出有价值的东西。
开源的一套日志系统:ELK
学会部署使用,给开发提供日志查看需求。

7、性能优化

只会部署是远远不够的,性能优化能最大化提升服务承载量。
这块也是比较难的,也是高薪的关键点之一,为了钱也得下点功夫学习啊!
可以从硬件层、操作系统层、软件层和架构层维度展开思考。

小结:

武器类型 武器名称
文本处理 grep、sed、awk
数据传输 Rsync、Scp、Inodify/Sersync
进程管理 Supervisor
性能分析 top、free、df、iftop、iostat、vmstat、dstat、sar、sysdig
网络服务 vsftp、nfs、samba、bind、dhcp、postfix
Web服务 Apache、Nginx、Tomcat、JBoss、Resin
数据库 MySQL、MariaDB、Percona Server for MySQL
NoSQL Redis、MongoDB
消息中间件 RabbitMQ、ActiveMQ
版本管理 SVN、Git
静态缓存 Squid、Varnish、Nginx
负载均衡 LVS、HAProxy、Nginx
高可用软件 Keepalived、Heartbeat、DRBD、corosync+pacemaker
集中管理工具 Ansible、Saltstack、Chef、Puppet
虚拟化与云平台 KVM、Xen、Docker、Kubernetes、Openstack、Cloudstack
自动装机 Kickstart、Cobbler
抓包分析 Tcpdump、Wireshark
持续集成 Jenkins、Gitlab
MySQL代理 Altas、Cobar、Mycat
压测 ab、fio、sysbench、mysqlslap
安全检查 chrootkit、rkhunter
日志系统 ELK
监控 Zabbix、Cacti、Nagios、Grafana

意识

1、坚持

学习是一个很漫长的过程,是我们每个人需要用一生去坚持的事业。
贵在坚持,难在坚持,成在坚持!

2、目标

没有目标的不叫工作,没有量化的不叫目标。
每到一个阶段,制定一个目标。
比如:先定一个能达到的小目标,挣它一个亿!

3、分享

学会分享,技术的价值在于能有效地将知识传递到外界,让更多的人知道它。
只要人人都拿出一点东西来,想想会变成什么样?

方向对了,就不怕路远了!

大家有更多的交流可以光临我的博客天游娱乐www.tianyounb.com蓝冠在线www.languanbw.com谢谢!

时间: 2024-07-30 09:44:13

高级运维工程师的打怪升级之路的相关文章

《运维工程师成长之路》一导读

前 言 运维工程师成长之路运维工作的发展方向与态度随着国内电商行业的发展和壮大,运维工作也变得更加复杂.为了保证系统及应用稳定.高效地运行,企业需要有更多的高级运维工程师.服务器的稳定运行是企业发展较为重要的基础,当前国内大部分中小企业对运维工程师的定位就是"打杂的",但随着技术型公司的诞生及成长,运维工程师的发展空间将会越来越大. 运维工程师是一个融合多种知识(网络.系统.架构.安全.开发.存储等)的综合性岗位.在不断解决各种新的问题和挑战的同时,运维工程师也积累了一定的经验.随着系

《Puppet权威指南》——1.1 浅谈运维工程师

1.1 浅谈运维工程师 想必大家都看过<好的程序员是普通程序员效率的数十倍>这篇文章,这句话是比尔·盖茨说的,被很多文章引用和转载.笔者读后感同身受,觉得这篇文章讲的并不夸张.程序员如此,运维工程师也是如此,一个优秀运维工程师的效率确实是普通运维工程师的数十倍.本节笔者将带领大家了解一下优秀运维工程师和普通运维工程师之间的不同之处.我们从运维工程师的定位和职责开始介绍,继而详细分析普通运维工程师和优秀运维工程师的差别,最后落脚到自动化运维工具.1.1.1 运维工程师定位和职责 要想了解普通运维

云来了!我们该如何成为一个好的运维工程师

同学门,云的时代已经来临,相信我们可以通过各种渠道感知到,拥有云平台服务的公司在这块的业绩也是拙见显著. 过去的我们一周少则几乎要背着笔记本,重则扛着服务器去机房膜拜,但是伴随着云时代的来临,现在的我们,也许就是点一个开关的事情......   以下是列举出两个典型的云服务商近年的财报情况.   阿里云.亚马逊云: 华为云业绩:   笔者(Jeson)认为,在云的发展趋势下,传统运维就业机会将会被云服务吞噬,自动化运维和开发运维会一直存在.那么,我们该如何在此背景下做好一个运维工程师呢? 答案是

大型网站运维工程师的职责和前景

运维中关键技术点解剖: 1 大量高并发网站的设计方案 ; 2 高可靠.高可伸缩性网络架构设计; 3 网站安全问题,如何避免被黑? 4 南北互联问题,动态CDN解决方案; 5 海量数据存储架构 一.什么是大型网站运维? 首先明确一下,全文所讲的"运维"是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范.知名度.服务器量级.pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至

Linux运维工程师的十个基本技能点

本人是Linux运维工程师,对这方面有点心得,现在我说说要掌握哪方面的工具吧! 说到工具,在行外可以说是技能,在行内我们一般称为工具,就是运维必须要掌握的工具. 我就大概列出这几方面,这样入门就基本没问题了. Linux系统如果是学习可以选用redhat或者centos,特别是centos在企业中用得最多,当然还会有其它版本的,但学习者还是以这2个版本学习就行,因为这两个版本都是兄弟,没区别的,有空可以再研究一下SUSE,有些公司也喜欢用,例如我公司 ...... 工具如下: 1.Linux系统

Linux运维工程师必须掌握的基础技能有哪些?

这个问题挺好的,回答这个问题也是对自身的审查,看看自己还欠缺哪些.(所以我估计得好好思考下,也许下一刻我就会突然惊醒,发现我还是战⑤渣) 首先限定在Linux运维工程师上 回答仅代表我想到,不代表我都会 :( 技能: 1.Linux基础 包括对Linux整体的理解/使用和基本命令: 了解Linux FHS : Filesystem Hierarchy Standard,国人写的这本书不错 Linux系统架构与目录解析 (豆瓣) 入门Linux:鸟哥的Linux私房菜.基础学习篇(第三版) (豆瓣

我们做了一款无网远程运维的智能硬件,坐等运维工程师“翻牌”

运维工程师在远程维护时会碰到这样的突发情况:网络崩溃,主机不能联网,无法远程控制主机来排查故障,除了亲临现场别无选择.日常维护中,也经常出现主机上无法安装远程软件,软件与系统不能兼容等,导致无法进行远程桌面控制.这些问题一直以来都困扰着运维人员,企业也不得不为此投入巨额成本. 近日,向日葵远程控制软件官方宣称,其最新发布的一款"控控"智能硬件,能完全脱离主机依赖,不受系统限制,实现"物理层"远程控制,可低成本.高效率地解决运维难题."控控"有三大

云告警平台 OneAlert :如何帮助运维工程师做好汇报?

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国首个 SaaS 模式的云告警平台,可集成 Zabbix ,Nagios ,Solarwinds ,AWS CloudWatch ,阿里云 ,监控宝,腾讯云等国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性,极大提高团队的协作能力.优化协作流程. 去年 OneAlert 结合真实用户的需求和国内外前沿经验,程序员们日夜兼程对平台做了一次又一次的优化,增加了许多用户真实需要的功能.本篇将详解 OneAlert 周报

让运维工程师不再蓝瘦、香菇

最近广西一小哥失恋后录的视频风靡互联网,也让"蓝瘦.香菇"这两个词火了一把.虽然原故事男主角是因为失恋才蓝瘦.香菇,但想想作为运维"狗"的我们也时常因强大的工作压力而蓝瘦,常常在晚上睡得香呼呼的时候因为要处理故障从温暖的被窝爬起来,看着铝朋友鄙视的眼神,真的好香菇--本来作为技术大牛的我们,工作应该是很酷的事情,享受的应该是小白美铝们崇拜的眼神,可现在却那么苦逼,天天被应用上线.系统巡检.故障排除这些琐事缠身,想想都蓝瘦!我们怎么样才能重获崇拜,有更多的时间陪伴家人