OceanBase几个常见问题及排查思路

第一种情况：某一台observer挂掉，数据库异常

OceanBase采用的的是多副本集群模式，在不同的zone里面有不同的server，每个zone里面的server是互相备份的。上层是通过slb来分发所以，当其中一台server挂掉的时候，会对业务产生什么影响呢？

制造现象：50用户并发某查询交易时，kill掉某一台（业务所在的observer跟业务不再的observer）observer。

登录到业务所在的ob服务器执行以下命令：

ps -ef|grep observer;kill -9 pid

预期影响：TPS先掉为0，1分钟内恢复正常，存在业务失败。

监控发现：TPS先掉为0，40秒后恢复正常。失败238笔。

登录到业务不在的observer执行以下命令：

ps -ef|grep observer;kill -9 pid

预期影响：对系统没有影响。

监控发现：交易TPS和响应时间无明显变化

恢复手段：查看9台observer的进程，找出挂掉的observer，并使用admin用户将observer启动。执行命令如下：

 su - admin;/bin/observer

2ã服务器层面占用cpu，数据库异常

制造现象：将业务所在的observer上的服务器cpu打满。

登录到业务所在的observer上的服务器运行脚本，脚本内容如下：

#! /bin/bash
# filename killcpu.sh
endless_loop()
{
echo -ne "i=0;
while true
do
i=i+100;
i=100
done" | /bin/bash &
}
if [ $# != 1 ] ; then
  echo "USAGE: $0 <CPUs>"
  exit 1;
fi
for i in `seq $1`
do
  endless_loop
  pid_array[$i]=$! ;
done
for i in "${pid_array[@]}"; do
  echo 'kill ' $i ';';
done
#运行命令：./killcpu.sh 30
#参数位占用几颗cpu 核数

预期影响：TPS下降，并且服务器cpu利用率高。

监控发现：TPS由700下降至550，OB CPU利用率90%，保持平稳

恢复手段：可以使用Linux命令找出当前数据库占用CPU较多的进程，判断是否重要，将其杀死

ps -aux | sort -k4nr | head -N

3、服务器层面打满磁盘，数据库异常演练

制造现象：将observer所在服务器的磁盘写满

登录到observer服务器执行命令：

dd if=/dev/zero of=/home/admin/oceanbase/log/1.log bs=100k count=1600000

预期影响：TPS降低为0交易持续报错。

监控发现：TPS由700下降为0，磁盘满后交易持续报错共失败3014笔，交易性能大幅波动

恢复手段：发生这种的影响主要来源于两个地方，如果这台机器上只装了ob以及ob相关的组件的话，写满磁盘要么是数据文件，要么是日志文件，如果是数据文件，那么没办，只能扩充资源，如果是日志文件，找到对应目录，删除多余日志文件。

4、数据库中存在并发大量烂sql，数据库异常

制造现象：某正常业务正常运行，这时候并发一个sql比较烂的业务。

预期影响：正常业务TPS下降，并且可能存在失败现象。

监控发现：批量发起1000个数据库并发操作，交易TPS立即由700下降至150，同时批量查询超时失败。

恢复手段：sql烂是数据库的通病，我们可以根据show processlist;查看当前数据库当前正在执行的sql，找出执行时间比较久的。然后对其优化，然后根据OceanBase自带的视图：gv$sql,gv$sql_audit来看数据库之前执行过什么的慢sql对其优化。

5、业务突然增大，并且扩容observer，数据库异常

制造现象：某业务突然增加50用户量。之后调整该租户的cup：alter resource pool xxx_poll unit C12_unit;。

预期影响：并发数据量会产生TPS以及响应时间的上涨，扩充资源会发生抖动，TPS上升，RT下降

监控发现：增加用户TPS由700上升至800，交易响应时间由0.070上升至0.095秒。扩容资源发生一点点抖动，TPS恢复至800，RT时间恢复到0.095秒。

恢复手段：无

6、模拟数据库服务器网络故障。

制造现象：将observer的2882跟2881端口禁掉

执行命令：

iptables -A INPUT -i bond0 -p tcp --dport 2882 -j DROP
iptables -A INPUT -i bond0 -p tcp --dport 2881 -j DROP
iptables -A OUTPUT -p tcp --dport 2882 -j DROP
iptables -A OUTPUT -p tcp --dport 2881 -j DROP

预期现象：TPS会出先下降，然后恢复正常，交易会报错。

监控发现：TPS先下降一半，1分钟后恢复正常，交易报错持续4分钟。

恢复手段：

iptables -D INPUT 1
iptables -D INPUT 1
iptables -D OUTPUT 1
iptables -D OUTPUT 1

时间： 2025-01-01 17:51:28

OceanBase几个常见问题及排查思路

OceanBase几个常见问题及排查思路的相关文章

线上PHP问题排查思路与实践

【CDN 最佳实践】CDN访问异常排查思路

MPLS AToM CISCO配置模板与基本故障的排查思路

组播的DR的工作原理与故障排查思路详解

Oracle高并发系列1：DML引起的常见问题及优化思路

【 CDN 最佳实践】CDN 加速 OSS 常见问题及处理思路

烨烁：CDN 加速 OSS 常见问题及处理思路

NoClassDefFoundError 排查思路

超融合网络常见问题及解决思路