【案例】常驻查询引发的thread pool 性能问题之一

问题现象
    线上某业务A的数据库版本MySQL 从5.5 升级到5.6 版本之后多次出现RT抖动的问题,其现象主要为:
    1 rt严重不稳定,部分query rt非常高。
    2 orzdba间歇性阻塞。

二 原理知识
    在MySQL Thread Pool根据参数thread_pool_size被分为若干个group,每个group维护client 发起的 connections,当MySQL建立 connection 时, MySQL 根据connection的thread id 对thread_pool_size取模,将connection 发起的sql 语句分配到对应的group。每个group的最大worker数量为thread_pool_oversubscribe+1。若worker达到最大数量后还是不足以处理回话请求,则连接在本group上等待,导致sql 语句的rt 增大。

三 问题分析
    目前线上的配置参数thread_pool_size为32,thread_pool_oversubscribe 为3 ,也即是ThreadPool共有32个group,每个group最多可容许4个worker。但是业务A的场景中存在6个binlog dump任务和2个从库和1个日志抓取任务,因为COM_BINLOG_DUMP命令是个执行时间非常长的命令(可以理解为slow query),因此其长期持有worker。当一个group被2个及以上COM_BINLOG_DUMP命令长期持有的时候,相对于其他group其处理能力会下降到其他group的1/2甚至1/4,最严重的会导致完全阻塞一个group。
Thread Pool本身没有存在group之间的均衡策略,因此新的连接还是会均匀的分配到所有的group上,当负载较大的时候,被COM_BINLOG_DUMP占有的group出现了严重的排队现象。
   在业务A场景中排队时间大约在10-30秒之间,因此有部分query的rt达到10-30秒;而大部分query还是被分配到正常的group上,其rt还是正常的。根据观察,一般拥堵的group在1-2个之间,因此影响1/32 ~ 1/16的query .

四 验证
    根据以上的原理,为了更好的复现,将thread_pool_oversubscribe调整为2,即每个group有2个worker;同时将thread_pool_size调整为3.
通过锁表阻塞的方法模拟落在group 1的2个COM_BINLOG_DUMP,此时group 1只剩下1个worker,而group 0和group 2还剩在3个worker。
并发向mysql发送select sleep(2),来模拟业务。
case 1
 
同一时间并发发起18个query。这时每个group分到6个query。因为g0和g2都有3个worker,因此这些query在4秒钟时处理完毕,但是g1只有1个worker,需要12秒

测试结果如下:符合预期

[root@rac1:/u01/test]$sh test_rt.sh
Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:42 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:44 CST 2014

Sun Oct 12 15:13:46 CST 2014

Sun Oct 12 15:13:48 CST 2014

Sun Oct 12 15:13:50 CST 2014

Sun Oct 12 15:13:52 CST 2014

case 2:
    开始时发起6个query,以后每隔2秒并发发起3个query。因为每个query本身耗时2秒,因此对于g0和g2完全能够处理这种并发,但是g1只有1个worker,因此永远都有一个query需要等待,所以被分配到g1上的query都需要等待2秒后才能被执行。
这个时候开启orzdba就会发现有1/3的概率被hang住2秒。线上出现的就是这种现象。

五 解决
1 系统层面 通过改大thread_pool_oversubscribe和thread_pool_size可以极大的减小这种现象的发生,但是不能完全的避免;
同时大量的常驻长连接是否合理(业务A中有9个拉binlog的连接常驻),也值得商榷(减少常驻连接也可以极大的减小这种现象的发生)。
2 源码设计层面:针对类似于binlogdump 的常驻链接存在很多优化点,针对binlogdump 这种长连接优化worker持有策略或者计数方式。

感谢 江疑 同学的详细分析。
test_rt.sh 脚本内容  

#!/bin/bash
function test()

{

    mysql.local -e \'select sleep(2)\' > /dev/null

    date

}

function r1()

{

    for i in {1..18}; 

    do 

        test &

    done

}

function r2()

{

    for i in {1..3}; 

    do 

        test &

    done

}

function r3()

{

    for i in {1..9000}; 

    do 

        r2

        sleep 2

    done

}

r1
时间: 2024-07-29 21:45:17

【案例】常驻查询引发的thread pool 性能问题之一的相关文章

【案例】常驻查询引发的thread pool 性能问题之二

一 现象    某业务单机4个实例中的一个实例出现连接数远高于其他三个实例(正常是4K,问题实例是8K+),但是这4个实例的配置完全相同.业务开发反馈为部分连接失败.     执行show processlist结果显示:      存在大量的Killed状态的连接126个,处于Connect状态的6K+,以及6个binlog dump连接(如果看了前面一篇文章是否有点触动,会不会是这个导致的?)   执行pt-pmp结果显示:      mysqld 十分的空闲  执行show engine

Mariadb Thread Pool分析

对于MySQL5.5来说只有企业版本中含有 Thread Pool,但幸运的是 mariadb 5.1中就已存在该功能,mariadb 5.5 中进行了改进. 本篇暂且介绍FAQ:后期会放出其工作原理及使用情况. 商业版本中 5.5.16 添加了 thread  handling model (线程池)来应对多客户连接问题.代替一个session 一个线程的问题.在MariaDB 5.1-5.3 中已经实现该功能,在MariaDB 5.5中实现优化,动态的线程池等,这个和商业版本有少许区别,具体

Mariadb Thread Pool VS Oracle MySQL Enterprise

Oracle MySQL Enterprise 部分 Thread_pool_algorithm: 连接并发调度算法,默认值0    使用一种保守低级别并发的算法,经测试表现结果不错. 值为1的话,并发数量会增大,采用更激进的算法性能,在线程数量一定的时候性能得到5-10%的提升,随着更大的连接数,性能会随之下降. Thread_pool_high_priority_connection: 该参数影响 如何安排语句的执行顺序,默认值为0,statement会使用 low priority 和 h

MySQL Thread pool操作过程详解

Thread pool 操作过程: thread pool 包含一定数量的 thread groups,每个groups 管理一定量的client connections,当mysql建立 connection 时,thread pool会以循环的方式(round-robin fashion)将其分配到其中的一个 thread groups中. thread_pool_size 规定了thread groups 的数量,这样也就规定了同时可以执行多少个statement 可取值为 1-64,每个

Reporting Service 告警"w WARN: Thread pool pressure. Using current thread for a work item"

如果Reporting Service偶尔出现不可访问或访问出错情况,这种情况一般没有做监控的话,很难捕捉到.出现这种问题,最好检查Reporting Service的日志文件.     今天早上就遇到这样一个案例,应用程序监控到调用SQL SERVER 2005的Reporting Service出现Method failed: HTTP/1.1 500 Internal Server Error .检查C:\Program Files\Microsoft SQL Server\MSSQL.3

青年节献礼:AliSQL青年节版本Release 增动态加字段和Thread Pool

动态加字段和Thread Pool Abstract 加字段作为业务需求变更中最常见的需求,InnoDB引擎表的加字段功能一直以来被运维人员所诟病,虽然支持了online方式,但随着表空间越来越大,copy整张表的代价也越来越大.AliSQL版本在InnoDB的compact记录格式的基础上,设计了新的记录格式comfort,支持动态加字段. MySQL默认的one-thread-per-connection的线程模型,在面对大并发的连接请求的时候,变成了性能杀手,随着线程的增多,吞吐能力会急剧

MariaDB中的thread pool详细介绍和使用方法_mariadb

Thread pool是什么 MySQL是每个连接上来都要创建一个线程来执行语句.这样每一个新的连接进来即会创建一个新的线程,这种动作对MySQL本身压力比较大.Threadpool是提供一种线程代理的模型执行每个连接的语句.而MySQL内部维护一个可能接受的线程总数,减少线程太多在CPU切换等方面的压力. 使用Threadpool的好处 1.使用线程代理的模型在连接数已知可控的情况下,提前创建好过线程并利用操作系统的threadpool技术维护,能减少很多开销. 2.尽可能的使用操作系统的线程

将不确定变成确定~LINQ查询两种写法,性能没有影响,优化查询应该是“按需查询”

如果在linq中希望进行一对多的复合查询时,请直接在查询中使用join into,或者使用let 关键字,当然在建立实体时动态赋值对于查询的性能也是没有影响的,两次查询结果完成相同 一 :在实体中赋值 var linq = from data in this.GetModel() join data2 in iWebDepartmentsRepository.GetModel() on data.DepartmentID equals data2.DepartmentID select new

MySQL内核月报 2014.12-MySQL· 性能优化·thread pool 原理分析

大连接问题 现有mysql 处理客户端连接的方式会触发mysql 新建一个线程来处理新的连接,新建的线程会处理该连接所发送的所有 SQL 请求,即 one-thread-per-connection 的方式,其创建连接的堆栈为: 线程建立后,处理请求的堆栈如下: 0 mysql_execute_command 1 0x0000000000936f40 in mysql_parse 2 0x0000000000920664 in dispatch_command 3 0x000000000091e