jvm系列(六):Java服务GC参数调优案例

本文介绍了一次生产环境的JVM GC相关参数的调优过程,通过参数的调整避免了GC卡顿对JAVA服务成功率的影响。

这段时间在整理jvm系列的文章,无意中发现本文,作者思路清晰通过步步分析最终解决问题。我个人特别喜欢这种实战类的内容,经原作者的授权同意,将文章分享于此。备注部分为本人添加,主要起到说明的作用。

原文出处:https://segmentfault.com/a/1190000005174819

背景以及遇到的问题

我们的Java HTTP服务属于OLTP类型,对成功率和响应时间的要求比较高,在生产环境中出现偶现的成功率突然下降然后又自动恢复的情况,如图所示:

JVM和GC相关的参数如下:


  1. -Xmx22528m  
  2. -Xms22528m  
  3. -XX:NewRatio=2  
  4. -XX:+UseConcMarkSweepGC  
  5. -XX:+UseParNewGC  
  6. -XX:+CMSParallelRemarkEnabled 

总结来说,由于服务中大量使用了Cache,所以堆大小开到了22G。GC算法使用CMS(UseConcMarkSweepGC),开启了降低标记停顿(CMSParallelRemarkEnabled),设置年轻代为并行收集(UseParNewGC),年轻代和老年代的比例为1:2 (NewRatio=2).

JVM GC日志相关的参数如下:


  1. -Xloggc:/data/gc.log  
  2. -XX:GCLogFileSize=10M  
  3. -XX:NumberOfGCLogFiles=10  
  4. -XX:+UseGCLogFileRotation  
  5. -XX:+PrintGCDateStamps  
  6. -XX:+PrintGCTimeStamps  
  7. -XX:+PrintGCDetails  
  8. -XX:+DisableExplicitGC  
  9. -verbose:gc 

问题解决过程

排除应用程序的内存使用问题

首先使用jmap查看内存使用情况:


  1. jmap -histo:live PID 

这个命令把程序中当前的对象按照个数和占用的空间排序以后打印出来。这里没有发现使用异常的对象。

排除Cache内容过多的问题

如果Cache内容过多也会导致JVM老年代容易被用满导致频繁GC,因此调出GC日志进行查看,发现每次GC以后内存使用一般是从20G降低到5G左右,因此常驻内存的Cache不是导致GC长时间卡顿的根本原因。对于GC LOG的查看有多种方式,使用VisualVM比较直观,需要使用VisualGC:

从图中我们可以看到伊甸园和老年代的空间分配,由于整体内存是20G,设置 -XX:NewRatio=2 因此老年代是14G,伊甸园+S0+S1=7G

调整GC时间点(成功率抖动问题加重)

如果GC需要处理的内存量比较大,执行的时间也就比较长,STW (Stop the World)时间也就更长。按照这个思路调整CMS启动的时间点,希望提早GC,也就是让GC变得更加频繁但是期望每次执行的时间较少。添加了下面这两个参数:


  1. -XX:+UseCMSInitiatingOccupancyOnly  
  2. -XX:CMSInitiatingOccupancyFraction=50 

意思是说在Old区使用了50%的时候触发GC。实验后发现GC的频率有所增加,但是每次GC造成的陈功率降低现象并没有减弱,因此弃用这两个参数。

调整对象在年轻代内存中驻留的时间(效果不明显)

如果能够降低老年代GC的频率也可以达到降低GC影响的目的,因此尝试让对象在年轻代内存中进行更长时间的驻留,提升这些对象在年轻代GC时候被销毁的概率。使用参数 -XX:MaxTenuringThreshold=31调整以后收效不明显。

备注:

1、MaxTenuringThreshold 在1.5.005之前最大值可以设置为31 ,1.5.006以后最大值可以设置为15,超过15会被认为无限大。

2、提升年轻代GC被销毁的概率,只是调整这个参数效果不大,第二次age的值会重新计算。

CMS-Remark之前强制进行年轻代的GC

首先补充一下CMS的相关知识,在CMS整个过程中有两个步骤是STW的,如图红色部分:

CMS并非没有暂停,而是用两次短暂停来替代串行标记整理算法的长暂停,它的收集周期是这样:

1、初始标记(CMS-initial-mark),从root对象开始标记存活的对象

2、并发标记(CMS-concurrent-mark)

3、重新标记(CMS-remark),暂停所有应用程序线程,重新标记并发标记阶段遗漏的对象(在并发标记阶段结束后对象状态的更新导致)

4、并发清除(CMS-concurrent-sweep)

5、并发重设状态等待下次CMS的触发(CMS-concurrent-reset)。

通过GC日志和成功率下降的时间点进行比对发现并不是每一次老年代GC都会导致成功率的下降,但是从中发现了一个规律:

前两次GC CMS-Remark过程在4s左右造成了成功率的下降,但是第三次GC并没有对成功率造成明显的影响,CMS-Remark只有0.18s。Java HTTP 服务是通过Nginx进行反向代理的,nginx设置的超时时间是3s,所以如果GC卡顿在3s以内就不会对成功率造成太大的影响。

从GC日志中又发现一个信息:

在文档和相关资料中没有找到蓝色部分的含义,猜测是remark处理的内存量,处理的越多就越慢。添加下面两个参数强制在remark阶段和FULL GC阶段之前先在进行一次年轻代的GC,这样需要进行处理的内存量就


  1. XX:+ScavengeBeforeFullGC   
  2. -XX:+CMSScavengeBeforeRemark 

备注:

1、蓝色部分的含义:remark标记需要清理对象的容量。

2、FULL GC阶段之前先在进行一次年轻代的GC的意义是:Yong区对象引用了Old区的对象,如果在Old区进行清理之前不进行Yong区清理,就会导致Old区被Yong区引用的对象无法释放。

调优以后效果很明显,下面是两台配置完全相同的服务器在同一时间段的成功率和响应时间监控图,第一个没有添加强制年轻代GC的参数。

结论

1、在CMS-remark阶段需要对堆中所有的内存对象进行处理,如果在这个阶段之前强制执行一次年轻代的GC会大量减少remark需要处理的内存数量,进而降低JVM卡顿对成功率的影响。

2、对于Java HTTP服务,JVM的卡顿时间应该小于HTTP客户端的调用超时时间,否则JVM卡顿会对成功率造成影响。   

原文发布时间为:2017-10-13 

本文作者:纯洁的微笑

本文来自合作伙伴“51CTO”,了解相关信息可以关注。

时间: 2024-08-02 17:12:01

jvm系列(六):Java服务GC参数调优案例的相关文章

《大规模Java平台虚拟化与调优》——1.3 大规模Java平台的技术因素

1.3 大规模Java平台的技术因素 当设计大规模Java平台时,需要考虑很多的技术因素.例如,对于构建良好的大规模Java平台来说,需要很好地理解Java垃圾回收(garbage collection,GC)以及JVM架构.硬件和hypervisor架构.本节中,概要讨论了GC.非一致内存架构(Non-Uniform Memory Architecture,NUMA),以及在理论和实际操作中的内存限制.稍后的章节会给出更为详细的描述,但首先在整体上理解围绕大规模Java平台设计有哪些问题是非常

MapReduce任务参数调优

本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优. Hadoop的默认配置文件(以cdh5.0.1为例): core-default.xml hdfs-default.xml mapred-default.xml 说明: 在hadoop2中有些参数名称过时了,例如原来的mapred.reduce.tasks改名为mapreduce.job.reduces了,当然,这两个参数你都可以使用,只是第一个参数过时了. 1. 操作系统调优 增大打开文件数据和网络连接上

mysql参数调优

为何要调整参数 不同服务器之间的配置.性能不一样 不同业务场景对数据的需求不一样 Mysql的默认参数只是个参考值,并不适合所有的应用场景 优化之前我们需要知道什么 服务器相关的配置 服务器型号 操作系统版本 内核版本 磁盘存储介质(sas sata ssd) 业务相关的情况 读多写少,读少写多 业务数据增长量 mysql相关的配置 服务器上需要关注那些 硬件情况 cpu(几核.超线程) 内存 磁盘(容量.性能) 操作系统版本(是否为稳定版) CPU.网卡节电模式(建议数据库应用的服务器,关闭节

SQL Server调优系列进阶篇(如何索引调优)

原文:SQL Server调优系列进阶篇(如何索引调优) 前言 上一篇我们分析了数据库中的统计信息的作用,我们已经了解了数据库如何通过统计信息来掌控数据库中各个表的内容分布.不清楚的童鞋可以点击参考. 作为调优系列的文章,数据库的索引肯定是不能少的了,所以本篇我们就开始分析这块内容,关于索引的基础知识就不打算深入分析了,网上一搜一片片的,本篇更侧重的是一些实战项内容展示,希望通过本篇文章各位看官能在真正的场景中找到合适的解决方法足以. 对于索引的使用,我希望的是遇到问题找到合适的解决方法就可以,

XGBoost参数调优完全指南(附Python代码)

简介 如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据. 构造一个使用XGBoost的模型十分简单.但是,提高这个模型的表现就有些困难(至少我觉得十分纠结).这个算法使用了好几个参数.所以为了提高模型的表现,参数的调整十分必要.在解决实际问题的时候,有些问题是很难回答的--你需要调整哪些参数?这些参数要调到什么值,才能达到理想的输出? 这篇文章最适合刚刚接触XGBoost的人阅读

jvm系列(五):Java GC 分析

Java GC就是JVM记录仪,书画了JVM各个分区的表演. 什么是 Java GC Java GC(Garbage Collection,垃圾收集,垃圾回收)机制,是Java与C++/C的主要区别之一,作为Java开发者,一般不需要专门编写内存回收和垃圾清理代码,对内存泄露和溢出的问题,也不需要像C程序员那样战战兢兢.这是因为在Java虚拟机中,存在自动内存管理和垃圾清扫机制.概括地说,该机制对JVM(Java Virtual Machine)中的内存进行标记,并确定哪些内存需要回收,根据一定

jvm系列(九):Java GC 分析

Java GC就是JVM记录仪,书画了JVM各个分区的表演. 什么是 Java GC Java GC(Garbage Collection,垃圾收集,垃圾回收)机制,是Java与C++/C的主要区别之一,作为Java开发者,一般不需要专门编写内存回收和垃圾清理代码,对内存泄露和溢出的问题,也不需要像C程序员那样战战兢兢.这是因为在Java虚拟机中,存在自动内存管理和垃圾清扫机制.概括地说,该机制对JVM(Java Virtual Machine)中的内存进行标记,并确定哪些内存需要回收,根据一定

《大规模Java平台虚拟化与调优》—— 导读

前 言 本书是9年来我在VMware vSphere上运行Java应用的经验结晶,这些经验来源于VMware本身以及VMware的众多客户.实际上,很多VMware客户都在VMware vSphere上运行企业级的核心Java应用,并取得了效果更好的总拥有成本(total cost of ownership,TCO)以及服务水平协议(service level agreement,SLA).我的第一本书是<Enterprise Java Applications Architecture on

《大规模Java平台虚拟化与调优》——第1章 大规模Java平台简介1.1 大规模Java平台的分类

第1章 大规模Java平台简介 本章定义了3类大规模的Java平台: 第1类:大量的Java虚拟机(Java Virtual Machine,JVM)(100-1000个JVM). 第2类:JVM的数量较少但是堆很大. 第3类:前两类的组合,其中第1类使用的数据来源于第2类的平台之中. 除此之外,本章还讨论了各种趋势,并且大致描述了一些技术性的考量因素,以帮助你理解设计大规模Java平台时与之相关的技术问题. 1.1 大规模Java平台的分类 基于与客户的交流,大规模的Java平台主要可以分为如