Preface 前言
为什么要写这本书
笔者从事系统运维和网站架构设计的工作已有10多年,现在在一家外企担任云平台架构师。云计算是现在的主流技术,未来也有很好的发展趋势,云计算的流行对于传统的运维知识体系来说,其实也造成了冲击,有很多读者经常向笔者咨询工作中的困惑,比如从事系统运维工作3~5年后就不知道该如何继续学习和规划自己的职业生涯了。因此笔者想通过此书,跟大家分享一下自己的工作经验和心得(包括传统运维和云平台运维工作的区别与对比),以期解决大家在工作中的困惑。本书提供了大量项目实践和线上案例,希望能让大家迅速了解Linux运维人员的工作职责,快速进入工作状态并找到成长方向。希望大家通过阅读此书,能够掌握Linux系统集群和自动化运维及网站架构设计的精髓,从而能够轻松愉快地工作,并提升自己的职业技能,这就是笔者写作此书的初衷。
运维架构师之路
在成为运维架构师之前,笔者从事过很长一段时间的系统集成、运维和管理工作,在CDN门户网站、电子广告、电子商务领域也有不少的沉淀和积累,在之前的《构建高可用Linux服务器》一书中已经跟大家分享了很多跟Linux集群有关的知识。笔者目前的主要工作职责是维护和优化公司的DSP电子广告业务平台,主要方向是云计算和大数据方面。需要维护的数据中心和机器数量非常之多,所以自动化运维和DevOps是目前的主要工作方向,此外,也会涉及网站架构设计及调优工作,因此在此书中特意将这部分工作经验分享出来,希望大家能从中学到新的知识体系,借以提升自己的职业技能。
读者对象
本书适合以下读者阅读。
中高级系统管理员
系统架构设计师
高级程序开发人员
运维开发工程师
如何阅读本书
本书是笔者对实际工作中积累的技术和经验所做的总结,涉及大量的知识点和专业术语。全书总共分为三大部分,第一部分包含第1章和第2章,主要讲解进行系统架构设计的软硬件环境,以及生产环境下的Shell脚本和Python脚本。其中,第2章的内容是以Shell为主,Python为辅,Shell部分讲得比较详细,Python部分需要重点关注的地方也有所提及。之所以这样安排,主要是考虑到大多数搞开发的读者或DevOps工程师都是Java程序员出身,对Shell脚本语言不是很熟悉。第二部分包含第3章、第4章和第5章,主要讲自动化运维,包括Fabric、Ansibel和Puppet三大工具,大家可以结合自己的实际环境来选择对应的工具。第三部分包含第6章、第7章和第8章,主要讲的是Linux集群和网站架构设计,特别是第8章,分别以百万PV、千万PV及亿级PV的网站为例来详细说明网站系统架构设计的相关技术,然后细分五层来解说网站的架构,并指出了设计网站的压力及关注点所在。
大家可以根据自己的职业发展和工作需求来选择不同的章节进行阅读或学习。
关于本书中的配置文件、Shell脚本和Python脚本的编号,这里也略作说明,比如1.5.3节中有1.sh,表示这是1.5.3节的第一个Shell脚本;如果是2.py,则表示是1.5.3节的第二个Python脚本;其他依此类推,在哪个章节中出现的配置文件或脚本就在哪个章节中寻找,这样对照起来阅读理解会比较方便。此外,书中多次出现的Nginx配置文件nginx.conf也在对应的章节里。本书相关的GitHub地址为http://github.com/yuhongchun/automation。
勘误
尽管笔者花费了大量的时间和精力来核对文件和语法,但书中难免还会存在一些错误和纰漏,如果大家发现有任何问题,都请及时反馈给我,相关信息可以发到个人邮箱yuhongchun027@gmail.com。尽管无法保证对于每一个问题都会有一个正确答案,但我肯定会努力回答并且指出一个正确的方向。
致谢
感谢爱女媛媛的出生,你的降临是上天赐给我的最好礼物,是我进行写作的源泉和动力。
感谢我的家人,他们在生活上对我的照顾无微不至,让我有更多的精力和动力去工作和创作。
感谢好友三宝这么多年来对我的信任和支持,从始至终一直都在支持和信任我。
感谢机械工业出版社华章公司的编辑杨福川和杨绣国,在你们的信任、支持和帮助下,我才能如此顺利地完成全部书稿。
感谢好友老男孩和刘天斯,闲暇之余和你们一起交流开源技术和发展趋势,也是一种享受。
感谢Linux之父—Linus Torvalds,他不仅创造了Linux系统,而且还创造了Git这么神奇的版本管理软件。
余洪春(抚琴煮酒)
中国,武汉
目 录
第1章 系统架构设计的构建基础
1.1 网站架构设计相关术语
1.1.1 什么是HTTP 1.1
1.1.2 什么是Web 2.0
1.1.3 软件开发C/S结构与B/S结构的区别
1.1.4 评估网站性能的专业术语
1.2 IDC机房的选择及CDN的选型
1.3 如何根据服务器应用选购服务器
1.4 CentOS 6.4 x86_64最小化安装后的优化
1.4.1 系统的基础优化
1.4.2 优化Linux下的内核TCP参数以提高系统性能
1.4.3 CentOS 6.4 x86_64系统最小化优化脚本
1.4.4 Linux下CPU使用率与机器负载的关系与区别
1.5 MySQL数据库的优化
1.5.1 服务器物理硬件的优化
1.5.2 利用tuning-primer脚本来调优MySQL数据库
1.6 小结
第2章 生产环境下的Shell和Python脚本
2.1 Shell和Python语言的简单介绍
2.2 Shell编程基础
2.2.1 Shell脚本的基本元素
2.2.2 Shell特殊字符
2.2.3 变量和运算符
2.3 Shell中的控制流结构
2.4 sed的基础用法及实用示例
2.4.1 sed的基础语法格式
2.4.2 sed的用法示例
2.5 awk的基础用法及实用示例
2.6 生产环境下的Shell和Python脚本分类
2.6.1 备份类脚本
2.6.2 统计类脚本
2.6.3 监控类脚本
2.6.4 开发类脚本
2.6.5 自动化类脚本
2.7 小结
第3章 轻量级自动化运维工具Fabric详解
3.1 Python语言的应用领域
3.2 选择Python的原因
3.3 Python的版本说明
3.4 增强的交互式环境IPython
3.5 Python(x,y)介绍
3.6 轻量级自动化运维工具Fabric介绍
3.6.1 Fabric的安装
3.6.2 命令行入口fab命令详解
3.6.3 Fabric的核心API
3.7 Fabric应用实例
3.7.1 开发环境中的Fabric应用实例
3.7.2 线上环境中的Fabric应用实例
3.8 小结
第4章 自动化部署管理工具Ansible简介
4.1 YAML语言介绍
4.2 Ansible的安装步骤
4.3 利用ssh-keygen设置SSH无密码登录
4.4 Ansible常用模块介绍
4.5 playbook介绍
4.6 角色
4.7 Jinja2过滤器
4.8 小结
第5章 自动化配置管理工具Puppet
5.1 Puppet的基本概念及介绍
5.1.1 Puppet简介
5.1.2 学习Puppet应该掌握Ruby基础
5.1.3 Puppet的基本概念及工作流程介绍
5.2 安装Puppet前的准备工作
5.3 Puppet的详细安装步骤
5.4 Puppet的简单文件应用
5.5 Puppet的进阶操作
5.5.1 如何同步Puppet-Client端上的常用服务
5.5.2 如何在Puppet-Client端自动安装常用的软件包
5.5.3 如何自动同步Puppet-Client端的yum源
5.5.4 如何根据不同名字的节点机器推送不同的文件
5.5.5 如何根据节点机器名选择性地执行Shell程序
5.5.6 如何快速同步Puppet-Server端的www目录文件
5.5.7 如何利用ERB模板来自动配置Apache虚拟主机
5.5.8 如何利用ERB模板来自动配置Nginx虚拟主机
5.6 Puppet的负载均衡方式
5.7 用GitHub来管理Puppet配置文件
5.8 小结
第6章 Linux防火墙及系统安全篇
6.1基础网络知识
6.1.1OSI网络参考模型
6.1.2TCP/IP三次握手的过程详解
6.1.3Socket应用及其他基础网络知识
6.2Linux防火墙的概念
6.3Linux防火墙在企业中的应用
6.4Linux防火墙的语法1
6.5iptables的基础知识
6.5.1iptables的状态state
6.5.2iptables的conntrack记录
6.5.3关于iptables模块的说明
6.5.4iptables防火墙初始化的注意事项
6.5.5如何保存运行中的iptables规则
6.6如何流程化编写iptables脚本
6.7学习iptables应该掌握的工具
6.7.1 命令行的抓包工具TCPDump
6.7.2图形化抓包工具Wireshark
6.7.3强大的命令行扫描工具Nmap
6.8iptables简单脚本:Web主机防护脚本
6.9线上生产服务器的iptables脚本
6.9.1安全的主机iptables防火墙脚本
6.9.2自动分析黑名单及白名单的iptables脚本
6.9.3利用recent模块限制同一IP的连接数
6.9.4利用DenyHosts工具和脚本来防止SSH暴力破解
6.10TCP_Wrappers应用级防火墙的介绍和应用
6.11工作中的Linux防火墙总结
6.12Linux服务器基础防护知识
6.13Linux服务器高级防护知识
6.14如何防止入侵
6.15小结2
第7章 Linux集群及项目案例分享
7.1负载均衡高可用核心概念及常用软件
7.1.1什么是负载均衡高可用
7.1.2以F5 BIG-IP作为负载均衡器
7.1.3以LVS作为负载均衡器
7.1.4以Nginx作为负载均衡器
7.1.5以HAProxy作为负载均衡器
7.1.6高可用软件Keepalived
7.1.7高可用软件Heartbeat
7.1.8高可用块设备DRBD
7.1.9四、七层负载均衡工作流程对比
7.2负载均衡关键技术
7.2.1什么是Session
7.2.2什么是Session共享
7.2.3什么是会话保持
7.3负载均衡器的会话保持机制
7.3.1LVS的会话保持机制
7.3.2Nginx负载均衡器中的ip_hash算法
7.3.3HAProxy负载均衡器的source算法
7.3.4服务器健康检测技术
7.4Linux集群的项目案例分享
7.4.1案例分享一:用Nginx+Keepalived实现在线票务系统
7.4.2案例分享二:企业级Web负载均衡高可用之Nginx+Keepalived
7.4.3案例分享三:Nginx主主负载均衡架构
7.4.4案例分享四:生产环境下的高可用NFS文件服务器
7.4.5案例分享五:生产环境下的MySQL DRBD双机高可用
7.4.6案例分享六:生产环境下的MySQL数据库主从同步
7.4.7案例分享七:HAProxy双机高可用方案之HAProxy+Keepalived
7.4.8案例分享八:巧用DNS轮询做负载均衡
7.5软件级负载均衡器的特点介绍与对比3
7.6网站系统架构设计图
7.7小结
第8章 浅谈网站系统架构设计
8.1网站架构设计规划预案
8.1.1利用经验,合理设计
8.1.2规划好网站未来的发展
8.1.3合理选用开源软件方案
8.1.4机房及CDN选型
8.1.5节约成本
8.1.6安全备份
8.2百万级PV高可用网站架构设计
8.3千万级PV高性能高并发网站架构设计
8.4亿级PV高性能高并发网站架构设计
8.5细分五层解说网站架构
8.6小结
附录A HAProxy 1.4的配置文档
附录B rsync及inotify在工作中的应用
附录C 用Supervisor批量管理进程