一次数据库宕机问题的分析

今天来到办公室,发现有一台服务器中的数据库实例停掉了。这种情况真是意料之外,尤其是我还不是很熟悉这台机器的服务。
赶紧查看数据库日志,可以看到数据库在昨晚停掉了,从日志来看没有人为的痕迹。
在宕机之前,有下面的日志。在此截取一部分。
TNS-12560: TNS:protocol adapter error
opiodr aborting process unknown ospid (33498) as a result of ORA-609
    ns secondary err code: 0
    nt main err code: 0
    nt secondary err code: 0
    nt OS err code: 0
opiodr aborting process unknown ospid (33500) as a result of ORA-609
opiodr aborting process unknown ospid (33496) as a result of ORA-609
Tue Jul 21 23:08:18 2015
Errors in file /U01/app/oracle/diag/rdbms/xxxx/xxxx/trace/xxxx_smco_7609.trc  (incident=56361):
ORA-00445: background process "W001" did not start after 120 seconds
Incident details in: /U01/app/oracle/diag/rdbms/xxxx/xxxx/incident/incdir_56361/xxxx_smco_7609_i56361.trc
Tue Jul 21 23:09:17 2015
Dumping diagnostic data in directory=[cdmp_20150721230917], requested by (instance=1, osid=7609 (SMCO)), summary=[incident=56361].
Tue Jul 21 23:09:19 2015
Sweep [inc][56361]: completed
Sweep [inc2][56361]: completed

opiodr aborting process unknown ospid (35054) as a result of ORA-609
opiodr aborting process unknown ospid (35052) as a result of ORA-609
Tue Jul 21 23:16:38 2015
Active Session History (ASH) performed an emergency flush. This may mean that ASH is undersized. If emergency flushes are a recurring issue, you may consider increasing ASH size by setting the value of _ASH_SIZE to a sufficiently large value. Currently, ASH size is 50331648 bytes. Both ASH size and the total number of emergency flushes since instance startup can be monitored by running the following query:
 select total_size,awr_flush_emergency_count from v$ash_info; 
Tue Jul 21 23:18:43 2015
Process RSM0, PID = 35012, will be killed
Tue Jul 21 23:18:45 2015
RSM0 started with pid=640, OS id=35799 
Tue Jul 21 23:22:06 2015
Process m000 died, see its trace file
Tue Jul 21 23:22:06 2015

Tue Jul 21 23:31:23 2015
Errors in file /U01/app/oracle/diag/rdbms/xxxx/xxxx/trace/xxxx_mmon_4651.trc  (incident=56137):
ORA-00445: background process "m000" did not start after 120 seconds
Incident details in: /U01/app/oracle/diag/rdbms/xxxx/xxxx/incident/incdir_56137/xxxx_mmon_4651_i56137.trc
Tue Jul 21 23:31:24 2015

Wed Jul 22 00:22:39 2015
Process RSM0, PID = 42798, will be killed
Wed Jul 22 00:22:52 2015
Errors in file /U01/app/oracle/diag/rdbms/xxxxx/xxxxx/trace/xxxxx_m000_43079.trc:
ORA-12751: cpu time or run time policy violation
Wed Jul 22 00:22:53 2015
RSM0 started with pid=39, OS id=44965 
Wed Jul 22 00:24:07 2015
Thread 1 advanced to log sequence 46159 (LGWR switch)
  Current log# 3 seq# 46159 mem# 0: /U01/app/oracle/oradata/xxxxx/redo03.log
Wed Jul 22 00:24:10 2015
LNS: Standby redo logfile selected for thread 1 sequence 46159 for destination LOG_ARCHIVE_DEST_2
Wed Jul 22 00:30:48 2015
WARN: ARC2: Terminating pid 5636 hung on an I/O operation
Wed Jul 22 00:31:18 2015
krsv_proc_kill: Killing 1 processes (Process by index)
Wed Jul 22 00:32:18 2015
ARC2: Error 16198 due to hung I/O operation to LOG_ARCHIVE_DEST_1
Wed Jul 22 00:36:01 2015
Sweep [inc][56137]: completed

ARC3: Archival started
ARC2: STARTING ARCH PROCESSES COMPLETE
ARCH: Archival stopped, error occurred. Will continue retrying
ORACLE Instance xxxxx- Archival Error
ORA-16014: log 2 sequence# 46158 not archived, no available destinations

从日志来看,数据库的错误类型很多。看起来似乎网络,CPU,IO都占到了。
带着疑问赶紧和同事进行了确认。最后同事建议先看看主库能不能open。如果不可以只能switchover了。
自己开始尝试启库,nomount,mount,检查了参数文件,控制文件的情况。
从v$backup中排除了相关热备份的干扰。数据文件的scn和数据库级都是相同的。
最后尝试open,在短暂紧张的等待之后,数据库是顺利起来了。
然后开始分析这个问题的原因。首先从直观感觉来看,服务器的反应很慢,iowait很高。
top - 09:40:05 up 22 days, 12:03,  3 users,  load average: 38.33, 24.68, 11.11
Tasks: 824 total,   1 running, 820 sleeping,   0 stopped,   3 zombie
Cpu(s):  1.0%us,  0.8%sy,  0.0%ni, 80.8%id, 17.4%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  132110448k total, 105395236k used, 26715212k free,   784000k buffers
Swap: 16777200k total,        0k used, 16777200k free,  2847488k cached
有时候使用sqlplus或者使用linux命令都会卡住。
来看看io的情况。
$ iostat -x 2
Linux 2.6.32-279.el6.x86_64 (xxxxxx)       07/22/2015      _x86_64_        (24 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.81    0.00    0.12    0.84    0.00   97.23

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.05     1.13    7.00    3.22  1375.40   161.00   150.34     0.08    7.87   0.74   0.76
sdb               7.35     3.28  235.05  187.89 50660.90  6300.31   134.68     1.61    3.80   0.38  15.92

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.57    0.00    0.48   17.24    0.00   80.71

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00    13.00   36.00    5.50  9072.00   148.00   222.17     0.11    2.57   0.78   3.25
sdb            1847.50    17.00 2245.50   11.00 1031796.00   256.50   457.37    73.46   30.51   0.44 100.00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.13    0.00    0.40   20.01    0.00   78.47

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
sda               0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
sdb            1836.00     0.00 2154.50    0.00 1016752.00     0.00   471.92    72.99   30.49   0.46 100.00

可以看到sdb盘在进行大量的读操作,%util的比例已经达到100%
可以从两个盘的读写上进行比较。
$ iostat 2
Linux 2.6.32-279.el6.x86_64 (tlbb3dbidb.cyou.com)       07/22/2015      _x86_64_        (24 CPU)
avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.81    0.00    0.12    0.84    0.00   97.23
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda              10.22      1375.37       161.00 2675007527  313127700
sdb             422.99     50692.01      6300.10 98592909044 12253317633

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           3.52    0.00    0.52   18.23    0.00   77.73
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda              10.00         0.00       128.00          0        256
sdb            2039.50    974104.00         0.00    1948208          0

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           1.17    0.00    0.38   20.31    0.00   78.15
Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
sda               0.00         0.00         0.00          0          0
sdb            2022.00    973192.00         0.00    1946384          0
可以看到在CPU利用率不怎么高的前提下,sdb盘在进行满负荷的读。
通过/etc/fstab中可以看到这个盘对应的分区就是存放数据文件的分区。
/dev/sdb                /U01                    ext4    defaults        1 2
初步怀疑是不是硬盘出问题了,在同事的帮助下使用megaCli查看了硬盘的情况,没有发现任何的坏块。
所以从物理上来说硬盘到目前为止没有发现问题。
这个时候我们可以结合日志进行一些分析,但是大部分日志都是昨晚的了,而且目前的问题时,数据库已经启动起来了,但是还是比较慢。这个时候这种问题真是雪上加霜。
不过还是静下心来认真做分析吧,排除了硬盘,查看是否可能是cpu,当然这个可以作为一个检查点,很快就可以排除。
$ ksh cpuinfo.sh
**************************************
CPU Physical NO:  2
CPU Processor NO:  24
CPU Core NO:  cpu cores : 6
CPU model name : Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
**************************************
可以看出CPU没有问题,因为听说之前出过CPU相关的问题。
这个时候还是从top来看比较直观。能从top中看到有一些客户端的session相关的进程占用的CPU达到了100%,IO占用也很高。
这也是一个疑点。我们可以绑定操作系统进程得到session的一些详细信息来参考。
绑定操作系统进程的过程参加 http://blog.itpub.net/23718752/viewspace-1424376/
可以抓取到其中一个session在做一个简单的查询。
SQL_ID                         SQL_TEXT
------------------------------ ------------------------------------------------------------
db6tf3qs75pvu                  SELECT appkey,:1,'xxxx',count(distinct t.userid),2,3 FROM
                                 m_xxxx_log t        WHERE  appkey in ('xxxxxx','14
                               xxxxx') and t.time >= to_date(:2, 'yyyy-mm-dd HH24:mi:
                               ss')  AND t.time < to_date(:3, 'yyyy-mm-dd HH24:mi:ss')
                                 group by appkey
语句还是比较简单的。
但是执行计划却有问题。
Plan hash value: 2105531167
------------------------------------------------------------------------------------------------------------
| Id  | Operation                    | Name        | Rows  | Bytes | Cost (%CPU)| Time     | Pstart| Pstop |
------------------------------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT             |             |       |       |   168K(100)|          |       |       |
|   1 |  HASH GROUP BY               |             |     2 |   288 |   168K  (1)| 00:33:45 |       |       |
|   2 |   VIEW                       | VM_NWVW_1   |    12 |  1728 |   168K  (1)| 00:33:45 |       |       |
|   3 |    HASH GROUP BY             |             |    12 |   504 |   168K  (1)| 00:33:45 |       |       |
|*  4 |     FILTER                   |             |       |       |            |          |       |       |
|   5 |      PARTITION RANGE ITERATOR|             |    12 |   504 |   168K  (1)| 00:33:45 |   KEY |   KEY |
|*  6 |       TABLE ACCESS FULL      | M_XXXXX_LOG |    12 |   504 |   168K  (1)| 00:33:45 |   KEY |   KEY |
------------------------------------------------------------------------------------------------------------

一个数据量过亿的大表进行大量的全表扫描,确实是很不应该的,不知道是sql的问题还是本身表做了某些变更导致的。
简单分析了下sql语句,没有发现问题,带着疑问查看了表的情况,这个表在这两天做了重新分区的工作。是不是会有一定的影响,查看了分区的索引信息。
结果发现有一个分区的索引状态是UNUSABLE,而这个分区就是从top中解析出来sql里面正在执行的。
所以很可能是这个分区导致的问题,不过似乎就这一个索引也不至于这么严重吧,我有查看了另外几个相关的表,发现另外有几个大表近期做了分区操作。数据分区所对应的分区索引有几个都是UNUSABLE,说明分区索引不可用。
又查看了其它几个top进程的情况,发现相关的sql也都在做全表扫描。
如果客户端连过来几百个session,都在尝试做全表扫描,影响可想而知。
修复起来就快得多了,尽管是亿级大表,但是rebuild得只是几个特定的分区,所以速度还是比较快的,
使用alter index xxxxx rebuild partition xxxxx的方式进行了修复,为了保险,没有使用Online的选项。
分区索引重建后,再次查看执行计划,就步入正轨了,索引都正常启用了。
问题解决之后,再来回顾这个问题,似乎还是有些不太容易理解,为什么昨晚的时候数据库实例就会自动挂掉呢,到底负载有多高呢, 我们可以参考db time这个指标。
DB_NAME            BEGIN_SNAP   END_SNAP SNAPDATE                              LVL DURATION_MINS     DBTIME
------------------ ---------- ---------- ------------------------------ ---------- ------------- ----------                        
                         6214       6215 21 Jul 2015 17:00                       1            60        429
                         6215       6216 21 Jul 2015 18:00                       1            60        460
                         6216       6217 21 Jul 2015 19:00                       1            60        221
                         6217       6218 21 Jul 2015 20:00                       1            60        200
                         6218       6219 21 Jul 2015 21:00                       1            60        190
                         6219       6220 21 Jul 2015 22:00                       1            60       1502

可以看到数据库实例在昨晚挂掉的时候,系统负载出奇的高,远远超过了阀值。通过awr查看,session数也比平时多了一倍。这种负载下,大量的全表扫描进行,势必对sga是一个很大的冲击,难怪在开始的时候爆出了w000没有响应,在MOS 1600807.1,1345364.1都有一些相关的说明。

时间: 2024-08-01 12:31:34

一次数据库宕机问题的分析的相关文章

一条sql语句导致的数据库宕机问题及分析

之前分享过一篇博文,是一条sql语句"导致"的数据库宕机,上次是另有原因,这次真碰到一个案例,而且是在重要的环境上,希望大家引以为戒. 数据库是基于Linux64的版本,版本是11.2.0.2.0,已经打了最新的psu. 数据库的访问用户数大约在1000左右,当时查看服务器的cpu已经是100%了,有大约10个进程都是cpu 100%,数据库逻辑读也是超高,一秒钟大约是接近百兆的情况,sga是12G,已用了sga的自动管理(sga_target=0), 查看内存组件时发现buffer_

一条sql语句“导致”的数据库宕机问题及分析

最近测试环境需要做一些变更,把测试环境切分成两套环境,存储空间也需要压缩压缩和整理. unix组的人已经开始做空间划分了,然后我们需要在此基础上重建一套环境. 有些数据文件使用空间不大,所以准备压缩一下. 用了下面的sql语句,结果跑了十几秒中就抛了下面的错误. SQL> set linesize 200 SQL> col name for a40 SQL> col resizecmd for a80 SQL> select a.file#,a.name,a.bytes/1024/

容灾切换中的数据库宕机问题简单分析(一)

最近对一个统计库做了计划内的容灾切换,即主备切换.操作的过程其实还是蛮顺利的.但是灾难切换中如果出现在问题,那就是灾难中的灾难了. 按照计划对配置信息做了同步,然后使用DG Broker做了SwitchOver操作. 这一次切换速度还是蛮快,我开了几个窗口看到日志都在不断输出,角色已经替换过来了.DG Broker切换的日志如下: DGMGRL> switchover to test29; Performing switchover NOW, please wait... New primary

美联社新闻数据库宕机5小时 波及美大部分报纸

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 北京时间10月115.html">26日上午消息,据国外媒体报道,周一美联社遭遇计算机故障,在5小时中各家报社及其他一些新闻媒体无法收到该社的大量报道. 故障发生于美国东部时间周一下午3时(北京时间周二凌晨3时),当时美联社正试图安装微软推荐的一个安全补丁.该社希望在下周的美国全国和各州大选前提高安全性. 美联社首席信息官洛林

flashback_area 区域溢出导致数据库宕机

问题: ORA-00257 ORA-16014 log 1 sequence# 1085 not archived, no available destinations ORA-00312 online log 1 thread 1 'usrapporacleoradatawanyanredo01.log'       原因:       归档日志闪回恢复区的2G都被写满了. 检查步骤: SQL>shutdown immediate SQL>startup ORA-00257 ORA-1601

ORA-04031错误导致宕机案例分析

今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力.   案例环境:      操作系统 :Oracle Linux Server release 5.7 64 bit    数据库版本:Oracle Database 10g Release 10.2.0.4.0 - 64bit Production   案例分析: 收到告警去检查数据库时,发现实例已经宕机.检查告警日志,发现

数据库突然宕机的问题及分析

昨天晚上,某个环境的数据库在做一个压力测试的时候突然宕机了.这个问题比较急.马上查看日志文件. 看到了如下的一段,报了os级的linux错误.提示没有空间了. Fri Mar 14 19:16:47 2014 Archived Log entry 192 added for thread 1 sequence 192 ID 0x1ed7a02c dest 1: Fri Mar 14 19:39:24 2014 Incremental checkpoint up to RBA [0xc0.2aa5

MySQL集群节点宕机,数据库脑裂!如何排障?

作者介绍 王晶,中国移动DBA,负责"移动云"业务系统的数据库集成架构设计.运维.优化等工作:擅长技术领域MySQL,获Oracle颁发的"MySQL DBA"官方认证,熟悉MySQL复制结构.MHA.cluster等多种架构及运维优化.   发现故障的时间正值大年初二,在各种铺天盖地的拜年信息和微信红包之中,我发现了手机上的这条告警通知:   PROBLEM:Disaster: Galera cluster has node down.我生产环境的Galera集群

由重启引起的Oracle RAC节点宕机分析及追根溯源

作者介绍 裴征峰,现就职于北京海天起点,二线专家成员,南京办事处负责人,OCP 10g.OCP 11g.OCM11g.超八年Oracle服务经验,擅长数据库故障诊断和性能调优.目前主要从事客户的现场维护.重大问题的解决.数据库性能分析.二线服务质量保证等工作.     1 背景说明  某省份的电信业务系统由于业务量较大,按地市划分部署在4套配置相同的RAC上,相同主机版本,相同的CRS和数据库版本.该系统已正常运行3年多,其间也有重启主机等正常维护操作.从4月24日 开始,这个系统的4套RAC的