2.5 基于资源瓶颈分析的优化方法论
2.5.1 基于资源瓶颈分析优化方法论简述
Oracle要做优化,大部分人首先会想到瓶颈在哪里?资源瓶颈分析是如此之普及,以至于无论懂还是不懂的人都知道“瓶颈”这个术语,都知道性能优化首先要找到这个瓶颈,然后消除这个瓶颈。数据库系统的资源主要包括:CPU、内存和虚拟内存、I/O子系统、网络子系统。
绝大部分开发人员在写程序的时候都假设资源是无限的,CPU是无限快,内存是无限多,磁盘无限大并且像内存一样快,网络带宽无限并且像光速一样运行。事实上,大家都知道,Oracle数据库总是在资源有限的环境下运行,我们总是在资源有限的环境下生存和发展。瓶颈分析就是建立在资源有限的运行环境下,通过发现瓶颈和消除瓶颈的过程来改善数据库或者业务系统性能。
只要数据库系统的资源足够,业务系统一定会良好运行,这是资源瓶颈分析优化理论的信条。每个有一定经验的DBA都知道,真正考验Oracle数据库吞吐量的是其并发处理能力,而不是资源供给能力,充分的资源并不能完全保障业务系统的快速运行。Oracle从本质上是一个巨大的串行同步系统,需要大量的lock、latch和mutex的支持才可以实现互不干扰的访问,充分的资源有助于Oracle快速通过串行通道,但无法保证在串行通道发生的冲突。
基于资源瓶颈分析的优化方法论具有以下局限性。
充分的资源并不能保证业务系统具备高性能。
资源之间的瓶颈会相互转化,CPU瓶颈的消失会导致输入、输出瓶颈,内存瓶颈的消失会导致CPU瓶颈。
资源利用率过高是性能不佳的滞后性指标表现,它只是其他藏在后面的真实原因的最后表现。
我们可以用下面几个简单的描述性场景来描述资源瓶颈分析优化方法论的局限性。
简单场景描述一:一个大量行锁冲突的系统,可以发现冲突严重时CPU和I/O会极度空闲,而这时业务会几乎挂起。
简单场景描述二:一个高吞吐量事务提交的系统,可以发现整体I/O资源空闲,某块磁盘I/O特别紧张,你会发现无法利用大量空闲的I/O资源。
简单场景描述三:一个资源极为空闲的系统,系统吞吐量不佳,而且无法增加资源利用率以提高系统吞吐量。
简单场景描述四:一个资源空闲的系统,响应时间总是无法满足。
2.5.2 主要的数据库服务资源供给
数据库服务器主要包含4类基础资源供给:CPU、内存、磁盘和网络。这4类基础资源具有完全不同的处理能力特征。一般来说具有以下递减关系:CPU >内存>>磁盘≈网络。磁盘还可以通过缓存、并行读取来获得很高的带宽,而对于网络,万兆网卡也才能达到理论1000MB/s的吞吐量,而且一般服务器的网卡接口有限,网络几乎无法提供与其他3大资源匹配的吞吐量。从这个匹配关系出发,几乎要求所有的业务系统都被设计成只需要获取一小部分数据返回客户端,也可以看出,有大量数据返回的业务系统网络也会成为瓶颈所在。
在主要的4类资源中,内存具有黏合剂的作用,可以作为CPU、磁盘和网络之间的缓冲,使资源之间的能力更加匹配。在高内存系统中,如何有效使用内存来解决各类资源瓶颈是资源瓶颈优化实践中的主要课题。
磁盘和网络由于其天生具有带宽不足的特性,在大部分业务系统中,磁盘和网络会成为所谓的资源瓶颈所在。有两种不同的手段来完成存储系统和网络系统的改善。
以内存和CPU资源来换取磁盘和网络资源是一种常用的手段,比如大规模缓存、传输数据压缩等。
减少存储系统、网络系统和服务器之间的数据交互,采用分布式计算、智能化存储系统和网络系统只返回绝对必需的数据,从而减少数据交互。比如Oracle Exadata一体机的主要目标就是减少存储和服务器之间数据的交互,通过减少数据交互来大规模改善性能。
2.5.3 有效运行资源瓶颈分析优化方法
基于资源瓶颈分析的优化方法论极其古老而且流行,古老和流行意味着其有一定的效果。笔者更愿意把基于资源瓶颈分析的优化方法论和基于局部命中率的优化方法论放在一起论述:资源空闲的系统未必能保证高效的性能,但资源紧张甚至不足的系统必然导致性能不佳。从这个角度考虑,由于瓶颈分析优化方法操作简单,容易发现问题,可以与局部命中率方法一样作为必要的辅助性优化方法论。资源瓶颈的分析虽然容易,但极其容易被误导,只有正确地认识资源的特性才可以发现资源瓶颈。在资源瓶颈的分析过程中,我们要把握以下几点。
每种资源都有其处理能力的上限,达到其处理能力上限后必然会导致其服务能力的下降,但接近其资源能力的上线未必会导致性能下降。只有达到资源瓶颈的上限后,才会成为所谓的瓶颈。
资源利用率只是衡量资源瓶颈的一个指标,但不是最重要的指标。100%的CPU利用率、100%的磁盘利用率并不意味着效率下降,有时候反而是业务高效运行的一定特征,比如ETL处理程序总是希望CPU被100%利用。
资源瓶颈可以相互交换,在一个I/O性能低下、内存资源充足的系统中,可以通过高内存和高CPU消耗来进行交换。一个网络带宽有限的系统可以通过压缩传输提高CPU利用率来进行交换。
资源使用过度是业务系统性能不佳的最后传导因素,是其他相关因子导致资源过度应用,而资源过度应用导致资源提供性能不佳。瓶颈分析需要明确主要的资源影响因子,也就是会导致资源应用的相关操作。
资源供给作为设备的基本属性,同样遵循吞吐量和响应时间关系曲线,具体参见图2-4。为了有效利用资源瓶颈分析,必须掌握每种资源的性能突变点,也许有些资源会存在多个不同的突变点。
资源的供给是均匀的,但是资源的使用往往不均匀。比如总是出现某几个CPU很忙,其他CPU基本空闲;某块磁盘特别忙碌,其他磁盘基本没有工作。在资源瓶颈优化中,资源均衡分布使用是常用的资源瓶颈优化方式。
在本书中,为了更好地发挥资源瓶颈分析的作用,把lock、buffer lock、latch和mutex等并发性控制机制纳入了资源的范畴,使性能必然与某个资源供给不佳具有一定的关系,使简单的资源瓶颈分析在Oracle业务性能优化中发挥更好的作用。