一则报警信息所折射出来的诸多问题

在主备库环境中,如果出现数据文件级的一些不一致,后期修复会很麻烦,所以这种情况可以提前规避,减少后期的隐患,我定制了一个数据库监控选项,即数据文件状态的检查。
最近几天,在半夜的时候,我总会收到这么一则报警信息,最开始没有留意,看报警信息是在备库中。
[DB监控系统]_ora_stest2_s2_yangjr@10.127.xxxx_报警
ZABBIX-监控系统:
------------------------------------
报警内容: datafile status issue
------------------------------------
报警级别: PROBLEM
------------------------------------
监控项目: dbf_status:datafile status issue:+DATA/sgstatdb3/datafile/tlserlog_data_20160704.659.909619203:RECOVER
------------------------------------
报警时间:2016.05.29-02:13:56
今天想起来这个问题,还是有些奇怪,决定好好检查一番。
在检查过程中,发现了不少的小问题。
首先,这其实是一个主库,上周五以前是一个备库,做了主备切换之后,监控系统中的信息没有更新及时,所以这是一个问题。
当然这个问题说大也大,说下也小,怎么理解呢,如果对这个问题进一步分析,就会发现,报警信息中的提示是在ASM存储的数据文件状态显示为RECOVER,而目前的主库中没有ASM存储,所以由此可以判断这个数据的结果还是来自于备库,那么为什么会出现这种情况呢。
简单查看了一下Orabbix的配置发现,配置信息中已经修改了JDBC连接信息,但是实际上后台还是在连接原来的主库,而这种情况该如何修复呢,其实就是在Orabbix中重新初始化一番,即从当前的数据配置列表中删除现在的主库,然后略作停顿,等Orabbix能够识别出删除配置的操作,然后重新添加即可。
Orabbix中会出现类似下面的信息,意味着这个删除配置已经被系统识别了。
2016-05-29 20:38:49,366 [main] WARN  Orabbix - Database stest2 removed from configuration file
2016-05-29 20:38:49,370 [main] WARN  Orabbix - Database stest2 conections closed
然后重新添加即可。
这样根本性的问题就解决了。
我们可以进一步思考,主备库的监控问题已经修复了。现在的问题是如果是在监控原来的备库,为什么备库会出现数据文件的状态为RECOVER?
在11g ADG的环境中,备库数据文件出现这种状态看起来还是有些奇怪,正常状态已经是AVAILABLE.
每天都会定时报警,提示数据文件状态为RECOVER,我们来看看那个时间段里会有什么样的操作,经过分析发现那个时间段附近有几个Scheduler Job运行失败,和TNS的配置有关,简单修复即可。
另外注意到一个问题,就是主备库存在延迟,这是一个11g的环境,出现这类问题实在是太不应该了。
使用verbose查看备库的信息,延迟还是有的。
DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON
  Transport Lag:   15 minutes 28 seconds
  Apply Lag:       15 minutes 28 seconds
  Real Time Query: ON
  Instance(s):
    stest2
而且稍等一会,继续查看延迟就继续变大。
DGMGRL> DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON
  Transport Lag:   48 minutes 30 seconds
  Apply Lag:       48 minutes 30 seconds
  Real Time Query: ON
  Instance(s):
    statdb2
而查看备库的状态为:
SQL> select open_mode from v$database;
OPEN_MODE
--------------------
READ ONLY WITH APPLY
由此可见,这也是一种误区,备库状态为open_mode为READ ONLY WITH APPLY,主备库还是可能出现较大的延迟。
而在备库排查了日志文件,也没有发现任何问题。这个时候问题就看起来陷入了僵局。
迅速在自己的知识库中进行搜索,这种不一致,如果排除了日志文件还有什么可能呢,时间可能是一个问题,在主备服务器段查看了系统时间,发现存在3分钟的一个误差,看起来问题就应该是如此了。
我使用ntpdate重新同步了时间之后,查看DG Broker还是显示延迟,这个时候不能慌乱,我们可以重新配置一些备库的信息,删除原来DG Broker的配置,重新添加备库即可。
查看主备延迟,这个时候就没有任何问题了。再过了许久,就没有出现此类问题。
DGMGRL> DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON

  Transport Lag:   0 seconds
  Apply Lag:       0 seconds
  Real Time Query: ON
  Instance(s):
    stest2
看来今天不会再收到这类的报警信息了,感觉心里还是踏实了许多。

报警时间:2016.05.29-02:13:56

时间: 2024-10-30 16:20:56

一则报警信息所折射出来的诸多问题的相关文章

如何一次性删除所有VNX的报警信息?

故障现象: VNX系列,报警日志总是一条一条的出现,删一条再出一条,如何一次性删除所有VNX的报警信息? 解决方案: VNX for Block:如果在Unisphere界面告警信息多次无法删除,可以通过重启restart management server服务来解决: VNX for File:登录到命令行,到目录/nas/log/webui中,编辑alert_log文件,该文件就保存着Unisphere界面的告警信息,删除文件里面的内容就好了.

关于报警信息读取发送模式的设计问题

问题描述 在做一个平台,是这样的project项目出现报警,报警信息保存在alert报警信息表中.以前只要在pc上看就行了,现在要和手机端互联,也就是写脚本隔一段时间刷新表,每次发现数据库alert表中有新的记录时就推送表信息给手机端.如何保证alert表中每次有新的记录都推送给手机端,而不会把之前时间相近的信息重复推送出去呢? 问题补充:也就是说如何判断alert表中报警记录之前已经发送过,能不能不修改表结构,以添加中间表的方式如何设计呢? 解决方案 我以前的做法是加一张表,在里面记录下每次把

由一条报警信息发现的一系列问题

今天看到一条报警短信,提示是某个表空间的问题. ZABBIX-监控系统: ------------------------------------ 报警内容: Tablespace Usage warning ------------------------------------ 报警级别: PROBLEM ------------------------------------ 监控项目: showtsps:-->TS_NAME:UNDOTBS1 :4.8% Free -----------

两条报警信息的分析(第二篇)

还是继续分析报警信息的关联,下面两个看似没有直接联系的报警信息其实很有关联. 下面是主库的报警的信息,查看v$dataguard_status得到了最新的错误信息. ############################# [DB监控系统]_adb2_p@10.127.xx.19_报警 ZABBIX-监控系统:  ------------------------------------ 报警内容: DG_issue ------------------------------------ 报警

一条简单的报警信息发现的oracle bug

系统中有这样一条报警信息,看似比较简单,但是引起了我的注意,主要原因是因为这是一个10gR2的备库,备库如果出现这样的问题,看起来似乎是在归档删除上存在一些问题. [DB监控系统]_ora_test_s2_yangjr@10.127.2.133_报警 ZABBIX-监控系统: ------------------------------------ 报警内容: Free disk space is less than 20% on volume /opt --------------------

中消协:消费者个人信息泄露频发,维权索赔诸多困难

今天上午中消协发布的<2014年度消费者个人信息网络安全报告>显示,消费者个人信息保护现状满意度低,约三分之二受访者2014年个人信息被泄露.中消协副会长兼秘书长常宇指出,近年来个人信息泄露事件的频发,特别是银行卡敏感信息泄露现象屡次发生,对网民造成了金融资产和个人信息安全等多方面危害,但消费者在个人信息保护方面面临防范难.举证难.索赔难等诸多难处. 报告认为,要解决消费者个人信息泄露和滥用的"顽疾",最终还应回归法治轨道,建立相应的个人信息保护法规,实现对个人隐私权的全面

两条报警信息的分析(第一篇)

任何规则都是固定的,但是人是活的,很多时候把一些细节之处结合起来,还是能够发现一些潜在的问题. 早上收到zabbix的报警,是两条看似很平常的短信. 一封邮件内容如下,这是一封报警邮件 报警内容: Free disk space is less than 20% on volume /U01 ------------------------------------ 报警级别: PROBLEM ------------------------------------ 监控项目: Free disk

学习笔记900天总结

    时间滴答滴答滑过,又是一个100天的阶段性总结.     大体来说,这100天里发生了很多的故事,去了趟青岛,去了趟四川成都,九寨游玩,回了趟家,出了新书,做了演讲,多陪了陪女儿...看到自己写下的记忆,让我想起了不少值得回忆的日子.当然还要感谢手机前的你,没有你的支持,这一切都会索然无味.     我的博客文章和微信同步分享,目前博客访问量刚好突破1千万,我也越加明白坚持的重要性,继续努力.     个人新书在7月上市,目前的反响还不错.我在最开始的一周内忙得焦头烂额,应很多朋友的要求

大数据推动信息安全产品更智慧

文章讲的是大数据推动信息安全产品更智慧,2013年最热门的科技词汇非"大数据"莫属,其相关书籍长期霸占各大畅销书排行榜,人们对于大数据给出了前所未有的关注度.大数据所带来的新思想,正在逐步渗透进每一个行业,改变着我们每一个人作为数据创造者的思维方式.大数据问世之前,正是互联网.云计算.物联网等技术快速发展的时期,而随着智能终端.数字城市等信息体的普及和大范围建设,任何人任何时刻在任何地点都在产生数据,全球数据量出现爆炸式增长,大数据时代已经到来.大数据的出现为信息安全带来了巨大的挑战也