MySQL频繁停库的问题分析(r12笔记第33天)

  最近也抽空帮一些网友解决一些问题,有些是Oracle,有些是MySQL,有时候虽然忙忙乎乎,但是解决问题之后还是很有成就感的。

  今天来说一个蛮有意思的问题,听起来还很诡异。是一个网友向我咨询,看看能不能给出一些建议。当我看到日志,隐隐感觉这是一个bug的感觉。

详细的日志如下:

2017-04-13 16:25:29 40180 [Note] Server socket created on IP: '::'.
2017-04-13
16:25:29 40180 [Warning] Storing MySQL user name or password
information in the master info repository is not secure and is therefore
not recommended. Please consider using the USER and PASSWORD connection
options for START SLAVE; see the 'START SLAVE Syntax' in the MySQL
Manual for more information.
2017-04-13 16:25:29 40180 [Note] Slave
I/O thread: connected to master 'xx@xxxx:6606',replication started in
log 'mysql-bin.000105' at position 732153962
2017-04-13 16:25:29
40180 [Warning] Slave SQL: If a crash happens this configuration does
not guarantee that the relay log info will be consistent, Error_code: 0
2017-04-13 16:25:29 40180 [Note] Event Scheduler: Loaded 0 events
2017-04-13 16:25:29 40180 [Note] /mysql_base/bin/mysqld: ready for connections.
Version: '5.6.20-log'  socket: '/tmp/mysql.sock'  port: 6607  Source distribution
2017-04-13
16:25:29 40180 [Note] Slave SQL thread initialized, starting
replication in log 'mysql-bin.000105' at position 634901970, relay log
'/mysql_log/relay-log.000339' position: 25153965
2017-04-13 16:26:01 40180 [Note] /mysql_base/bin/mysqld: Normal shutdown

2017-04-13 16:26:01 40180 [Note] Giving 2 client threads a chance to die gracefully
2017-04-13 16:26:01 40180 [Note] Event Scheduler: Purging the queue. 0 events
2017-04-13 16:26:01 40180 [Note] Shutting down slave threads
2017-04-13 16:26:01 40180 [Note] Slave SQL thread exiting, replication stopped in log 'mysql-bin.000105' at position 637977115
2017-04-13 16:26:01 40180 [Note] Slave I/O thread killed while reading event
2017-04-13 16:26:01 40180 [Note] Slave I/O thread exiting, read up to log 'mysql-bin.000105', position 732432767
2017-04-13 16:26:01 40180 [Note] Forcefully disconnecting 0 remaining clients
2017-04-13 16:26:01 40180 [Note] Binlog end
2017-04-13 16:26:01 40180 [Note] Shutting down plugin 'partition'
2017-04-13 16:26:01 40180 [Note] Shutting down plugin 'INNODB_SYS_DATAFILES'
2017-04-13 16:26:01 40180 [Note] Shutting down plugin 'INNODB_SYS_TABLESPACES'
2017-04-13 16:26:01 40180 [Note] Shutting down plugin 'INNODB_SYS_FOREIGN_COLS'因为mysql服务进程启动没有一会就自动停止了。而且仔细查看这个日志,会发现里面没有任何Error的字样,有几个warning的信息,但是觉得不应该是问题的根本原因。

   通过上面的日志,我们会得到一些基本的信息:

  1. 这是一个从库,可以从relay的信息看出
  2. 停库的时候看起来是一个顺序的过程,不像是掉电宕机,异常crash的特点
  3. 标红的那句:

    Giving 2 client threads a chance to die gracefu

我觉得这句日志是这个问题查找的一个重点方向,怎么两个thread就可以优雅的die了。

   所以我准备从几个角度来查看。

  1. 是否是系统层面的异常
  2. 是否是内核参数的设置问题
  3. 是否是数据库参数的设置
  4. bug

    第一个问题,我查看了文件系统是ext4,内存是64G,剩余内存还很多,系统的配置和负载都不高。

    第二个问题,我查看了内核参数的设置,主要的shmmax这些参数设置都没有问题,我看了里面还指定了很多细节的网络设置,我们纠结了下是否是swap会有影响,尽管目前swap使用率几乎为0,还是带着试试看的心态调试了下,设置swapniess=1,结果测试问题依旧。

    第三个问题是否是数据库参数的设置,这个我看buffer_pool_size是40G,其它的参数设置也蛮合理,也没有生疏的参数设置,所以这个地方也无从下手,不过还是试了是把buffer_pool_size从40G设置为4G,结果问题依旧。

    第4个问题,查找bug,还真找到一个,https://bugs.mysql.com/bug.php?id=71104  但是这个问题很难解释的通,因为根据这位网友的反馈,这台服务器早上还好好的,下午就是这样了,所以说是bug也有些牵强。

    带着疑问,我也尝试了启动加上skip-slave-start都无济于事。

我觉得得换个思路,还有哪些盲点没有考虑到。

我突然看到日志目录下有一个文件,这个文件一看就不是MySQL系统生成的,很像是手工指定生成的文件。查看里面的信息,发现是检测MySQL运行状态的检查。由此我想是不是系统层面设置了什么任务之类的。

使用crontab -l查看,果然看到两个,第2个就是这个检查服务状态的任务脚本,而第一个是一个check_mysql.sh这样的脚本

内容如下:

#!/bin/bash
    datetime=`date +"%F %H:%M:%S"`
  /mysql_base/bin/mysql -uxx -pxx  -e "select version();" &>/dev/null
  if [ $? -eq 0 ]
         then     
        #date +"%F %H:%M:%S"
                echo "$datetime   mysql is running" >>/mysql_log/check_mysql.log
          else
                pkill mysql;
        sleep 5;
                /mysql_base/bin/mysqld_safe --user=mysql >/dev/null 2>&1 &
        echo "$datetime  ERROR:**************mysql restarted********************" >>/mysql_log/check_mysql.log
  fi大家细细看看这个脚本有没有问题,基本的思路就是连接到MySQL,查看一下版本,如果得到的结果为0,否则就会杀掉MySQL,然后等待5秒,重启服务。

  这里的关键就是第一部分的内容了,如果连接失败,后面的步骤肯定会出问题,也就是会直接杀掉MySQL.

  和这位网友确认,他上午是修改了一个数据,这个用户的密码应该修改了,导致连接异常出了这个意料之外的问题。

   最快的解决方式就是先注释掉这个cron,然后调整下密码,更关键的是这个逻辑要进行持续的改进。

  这个问题的分析也给我好好上了一课,很多复杂的问题,原因其实很简单,但是查找问题的过程不简单。

   

时间: 2024-11-07 00:40:40

MySQL频繁停库的问题分析(r12笔记第33天)的相关文章

MySQL主从不一致发现的细小问题分析(r12笔记第63天)

   今天和同事一起看了一个问题,她在一个主从环境中发现了数据不一致,存在主键冲突.     show slave status的报错信息大概是下面的样子. Last_Error: Coordinator stopped because there were error(s) in the worker(s). The most recent failure being: Worker 0 failed executing transaction '0e454161-3169-11e7-98f6

Oracle数据库端口突然无法访问的分析(r12笔记第46天)

 最近碰到一个蛮有启发意义的案例.是数据库监听相关的,但是实际的原因却又出乎意料.  问题的反馈受益于开发同学,一个开发同学在lync上找到我,说现在一个线上业务的数据库访问有些问题,想问问我是否有什么建议.大体了解了下,他们在使用一个非1521的端口,比如端口是1525,他们在业务端看到的错误信息类似下面的样子: java.sql.SQLException: Io exception: The Network Adapter could not establish the connection

MySQL中的binlog和redo浅析(r12笔记第5天)

   有一个小问题可能很多人都想起过,那就是MySQL中既然已经有了binlog,为什么还需要redo,这个问题看起来好像很简单,但是细细品来,还是有不少值得注意的地方.     对于数据恢复,尤其是异常宕机的情况下,再次启动的时候,如何恢复,恢复的数据依据,这个尤为重要,在MySQL中是有checkpoint的技术来做一个基本的检查点控制,也就是常说的LSN,对于事务性数据库,大都会采用write ahead log的策略,即当前事务提交的时候,先写redo,在修改相应的页,如果发生宕机导致数

相同update语句在MySQL,Oracle的不同表现(r12笔记第30天)

   今天有个朋友问我一个SQL问题,大体是一个update语句,看起来逻辑没有问题,但是执行的时候却总是报错. 语句和报错信息为: UPDATE payment_data rr    SET rr.penalty_date = '2017-4-12'  where rr.id =        (SELECT min(r.id)           FROM payment_data r          where data_no =                (SELECT data_

一个ORA-00600问题的简单分析(r12笔记第18天)

  在前些天尝试使用sysbench来压测Oracle,没想到初战就不顺利,因为初始化几百万数据库,竟然一个小时过去了,一个表的数据都没有初始化好,这个可让我大大失望,所以我就强制清理了会话,把数据初始化流程给终止了.    今天想继续试试,看看能不能优化一些地方.但是刚开始跑初始化数据的脚本的时候,就抛出了一个ORA-00600的错误. 错误信息如下: Creating table 'sbtest1'... FATAL: OCIStmtExecute failed in drv_oracle.

【大数据新手上路】“零基础”系列课程--MySQL 数据整库迁移到 MaxCompute

随着公司业务的增多,云数据库 RDS 下的 MySQL 数据库的表越来越多,想要把它全部迁移到 MaxCompute 中进行计算分析,但又愁要配置太多次同步任务.如何能将大量的数据表一次性上传到 MaxCompute 中呢?通过大数据开发套件的整库迁移功能,便可快速完成 MySQL 数据整库迁移到 MaxCompute,从而节省同步时间,提高工作效率. 下面介绍一个适用于中小企业用户,高效率低成本的数据同步方案: 对于自建或云数据库 RDS 的 MySQL 数据库中的数据,都可以通过整库迁移功能

MySQL中GTID和自增列的数据测试(r12笔记第38天)

  昨天的一篇文章,今天有不少网友向我确认一些细节,我想最近正好在看GTID的东西,可以揉在一起来说说.    GTID这个概念看似简单,实际上还是有不少的门道. 我们来从架构的设计角度来看看存在哪些场景需要考虑GTID的变化.   一主两从的架构模式下GTID的变化   我们就以一主两从的架构为基准进行阐述.在这个架构模式下我们会用到MHA的方案.    如果这个时候Master节点宕机了,MHA就会开启检查机制. 这个时候Slave 1节点就会变为新的Master,Slave 2会从Slav

php将mysql数据库整库导出生成sql文件的详细代码

 下面是php将mysql数据库整库导出生成sql文件的详细代码,希望对大家在用php编程时备份数据有一定帮助 由网上搜到,有更改.    文件名:db_backup.php    源代码如下:   代码如下: <?php  ini_set("max_execution_time", "180");//避免数据量过大,导出不全的情况出现.    /*    程序功能:mysql数据库备份功能  作者:唐小刚  说明:  本程序主要是从mysqladmin中提取

sigslot库源码分析

最近一直在忙毕设的事情,博客都快被遗忘了.最近正好在研究sigslot库,索性晚上写点源码分析的水文充充数. 言归正传,sigslot是一个用标准C++语法实现的信号与槽机制的函数库,类型和线程安全.提到信号与槽机制,恐怕最容易想到的就是大名鼎鼎的Qt所支持的对象之间通信的模式吧.不过这里的信号与槽虽然在概念上等价与Qt所实现的信号与槽,但是采用的仅仅是标准C++语法,不像Qt采用了扩展C++语言的方式(Qt需要使用moc工具对代码预处理之后,才能由标准的C++编译器进行编译). 众所周知,C+