两条报警信息的分析(第一篇)

任何规则都是固定的,但是人是活的,很多时候把一些细节之处结合起来,还是能够发现一些潜在的问题。

早上收到zabbix的报警,是两条看似很平常的短信。
一封邮件内容如下,这是一封报警邮件
报警内容: Free disk space is less than 20% on volume /U01
------------------------------------
报警级别: PROBLEM
------------------------------------
监控项目: Free disk space on /U01 (percentage):7.42 % 
------------------------------------ 
报警时间:2015.09.26-03:06:21
另外一封的内容如下,这是一封报警恢复邮件,证明状态已经正常了。
监控项目: Free disk space on /U01 (percentage)_50.19 %
------------------------------------
主机名称:db2_s@10.127.xxxxxx
------------------------------------
恢复时间:2015.09.26-03:07:21
从这两封邮件来看,似乎在3点左右的时间段有什么特定的操作,消耗了大量的空间,最后又恢复了正常。
查看文件系统的使用情况如下:
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda9             6.0G  681M  5.0G  12% /
tmpfs                  48G   25G   24G  51% /dev/shm
/dev/sda3             485M   36M  424M   8% /boot
/dev/sda10            151G   71G   72G  50% /U01
/dev/sda5              32G  176M   30G   1% /tmp
/dev/sda8             9.9G  1.5G  7.9G  16% /usr
/dev/sda7              15G  564M   14G   4% /var
/dev/sdb1             2.0T  846G 1008G  46% /U02
经过查看,发现这是一个备库,同时备份库也定期做一个全备以备不时之需。备份目录在/U01下面,而/U02下面是数据文件的目录。通过这些信息不知道大家能够发现什么。我们先放下看。
查看了/U01下面的空间情况,得知在3点左右的时候数据库做了一个全备,做完备份之后会清理掉两天前的备份。
全备是通过rman来做的,备份集的大小为60G左右。每天都会生成一次全备,这样备份目录下就有两天内的备份,大概是130G左右。如果按照这个公式来看。
?SQL> select (60+71)/151 from dual;
(60+71)/151
-----------
 .867549669
确实很容易触发报警阀值,这个时候要么就是默然接受这个现实,因为备份也确实需要,旧备份也确实需要删除。当然我们也可以适当的清理一些额外的空间,最后分析来分析去,发现有些冗余
日志还是可以删除的。比如这个库开了几个端口,常年下来就会有大量的登录日志。这些目前没有特别的审计还是不需要的,可以删除。
$ ll
total 16
drwxr-xr-x 13 oracle oinstall 4096 Jun  5  2013 listener_1522
drwxr-xr-x 13 oracle oinstall 4096 Jun  5  2013 listener_1523
drwxr-xr-x 13 oracle oinstall 4096 Feb 17  2014 listener_1531
drwxr-xr-x 13 oracle oinstall 4096 Jun  5  2013 listener_1532
$ cd *1531
$ du -sh ./*
402M    ./alert
176M    ./trace
但是这么下来,也只是清理近2G的空间,还是起不了太大的作用。这个时候仔细查看问价系统的使用情况发现了奇怪的地方。
Filesystem            Size  Used Avail Use% Mounted on
/dev/sda10            151G   71G   72G  50% /U01
/dev/sdb1             2.0T  846G 1008G  46% /U02
rman备份是基于数据块,没有启用压缩,备份集才60G左右,那么这个库本身就不大,但是数据目录/U02却又近2T的空间,如果说数据文件的冗余也可以理解,而且我们一般不会给数据库给太大
的空间范围。像这个情况下,数据库使用近800多G,但是备份集才60G左右,悬殊有点太大了。
查看表空间的使用情况发现只占用了近70G,那么剩下的空间都被贪污了?
进一步分析发现,在一个目录下存在着一个很就的备份,占用了近769G的空间。
$ du -sh .
769G    .
$ ll
total 806290444
-rw-r----- 1 oracle oinstall 130758828032 Apr  3  2014 full_DB_20140402_3574
-rw-r----- 1 oracle oinstall 120367751168 Apr  3  2014 full_DB_20140402_3575
-rw-r----- 1 oracle oinstall  75769864192 Apr  3  2014 full_DB_20140402_3576
-rw-r----- 1 oracle oinstall  96318881792 Apr  3  2014 full_DB_20140402_3577
-rw-r----- 1 oracle oinstall  96617996288 Apr  4  2014 full_DB_20140402_3578
-rw-r----- 1 oracle oinstall  89356836864 Apr  4  2014 full_DB_20140402_3579
...
明白了这点之后,再次查看发现空间就大大减少了。剩余了近1.8T,真是太富有了。
Filesystem            Size  Used Avail Use% Mounted on?
/dev/sdb1             2.0T   77G  1.8T   5% /U02?
这个时候就需要简单修改一下脚本,把备份路径挪过来,这个问题就彻底解决了。

时间: 2024-10-23 18:22:31

两条报警信息的分析(第一篇)的相关文章

两条报警信息的分析(第二篇)

还是继续分析报警信息的关联,下面两个看似没有直接联系的报警信息其实很有关联. 下面是主库的报警的信息,查看v$dataguard_status得到了最新的错误信息. ############################# [DB监控系统]_adb2_p@10.127.xx.19_报警 ZABBIX-监控系统:  ------------------------------------ 报警内容: DG_issue ------------------------------------ 报警

一则orabbix报警的分析(第一篇)

最近使用zabbix监控之后,都会在凌晨收到1台数据库服务器的报警短信,报警的内容为: No data received from Orabbix 这个错误其实就是orabbix通过jdbc已经接受不到数据库实例的信息了,但是隔了10来分钟之后,又会收到问题恢复的短信. 既然问题已经自动修复了,可能在那个时间段里有一些固定的操作,操作完成之后,数据库实例的负载就自动恢复了. 可以从监控DB time的趋势图中看出一些端倪. 根据提示的信息查看了问题时间段的awr和对应ash报告. 先来看awr报

由一条报警信息发现的一系列问题

今天看到一条报警短信,提示是某个表空间的问题. ZABBIX-监控系统: ------------------------------------ 报警内容: Tablespace Usage warning ------------------------------------ 报警级别: PROBLEM ------------------------------------ 监控项目: showtsps:-->TS_NAME:UNDOTBS1 :4.8% Free -----------

android emulator虚拟设备分析第一篇之battery

一.概述 本文使用的android版本是5.1.0_r1,goldfish内核版本是3.4,android镜像是x86架构的.本文以battery为例,完整地介绍了虚拟设备的实现和使用. 为什么android emulator需要虚拟设备,简单来说就是android系统需要使用,但是host系统却没有,比如gps,bluetooth,battery,gsm等.另外,虚拟设备也提供了android emulator和guest os之间交流的方式,比如emulator控制面板中可以设置电池的电量,

一条简单的报警信息发现的oracle bug

系统中有这样一条报警信息,看似比较简单,但是引起了我的注意,主要原因是因为这是一个10gR2的备库,备库如果出现这样的问题,看起来似乎是在归档删除上存在一些问题. [DB监控系统]_ora_test_s2_yangjr@10.127.2.133_报警 ZABBIX-监控系统: ------------------------------------ 报警内容: Free disk space is less than 20% on volume /opt --------------------

php做ios推送的服务器,后台运行的时候会推送两条信息?有代码

问题描述 php做ios推送的服务器,后台运行的时候会推送两条信息?有代码 为什么php做ios推送的服务器的时候,后台运行的时候会推送两条信息?但是手机关掉屏幕推送的时候就正常了~ 就只有后台运行的时候是两条?? 怎么改呢? 下面是代码 /** 手机推送信息类 @author:wtt */ class Push{ private $deviceToken; private $message; function __construct($deviceToken,$message){ $this-

AMiner发布计算机领域知识图谱,包括20多万条专家信息、50多万篇出版论文

日前,清华大学副教授.Arnetminer创始人唐杰在微博公开表示AMiner将发布计算机领域的专业知识图谱Science Knowledge Graph (SciKG). 据其介绍, 这个计算机领域的知识图谱包含1万个知识概念.概念关系以及概念定义,20万专家信息(专家和知识概念对应)以及50万相关论文.这个数据可以用来做一些领域信息理解,信息推荐和检索. 雷锋网 AI 科技评论了解到,AMiner官网目前已经更新了该数据集的下载通道. 从官网可以看到相关介绍, SciKG是一个丰富的知识图谱

备库报警邮件的分析案例(二)

在第一篇中分享了关于备库报警邮件的分析,发现很多问题都是一环扣一环. 起初是通过监控主库中的v$dataguard_status发现备库中可能存在一些问题,结果逐步分析,发现是由备库的crontab触发了备库的定时read-only和online状态,(即只读和应用日志,10gR2的环境),而这些关键信息都是从数据库的alert日志中发现的,但是问题还没有完,才刚刚开始,因为发现备库中竟然有ORA-1652: unable to extend temp segment by 128 in tab

由两条域名假新闻谈起 是谁在山寨化谷歌

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 2月初的10天时间内,网上流传着两条关于Google公司域名相关新闻: 一条的来源是,某网站在<传Google收购baobei.com 进军c2c电子商务领域>一文声称:2月2日Google已经收购baobei.com,收购金额为100万美元,至于具体的收购情况,该消息人士称不便透露.不过通过对baobei.com的WHOIS(一