今天下午收到一条报警邮件
ZABBIX-监控系统:
------------------------------------
报警内容: Free disk space is less than 20% on volume /U01
------------------------------------
报警级别: PROBLEM
------------------------------------
监控项目: Free disk space on /U01 (percentage):9.7 %
------------------------------------
报警时间:2015.10.27-18:08:49
对于目前的监控情况还算是比较稳定的,突然出现这个问题感觉还是有些奇怪。
这个环境是一个数据量也不大,负载也不高的环境,于是引起了我的重视。
首先就是查看DB time的情况,没有发现异常。
BEGIN_SNAP END_SNAP SNAPDATE DURATION_MINS DBTIME
---------- ---------- ------------------------------- ----------
17867 17868 27 Oct 2015 11:00 60 15
17868 17869 27 Oct 2015 12:00 60 15
17869 17870 27 Oct 2015 13:00 60 15
17870 17871 27 Oct 2015 14:00 60 15
17871 17872 27 Oct 2015 15:00 60 15
17872 17873 27 Oct 2015 16:00 60 15
17873 17874 27 Oct 2015 17:00 59 36
看来这个问题似乎被平均了,来查看实时的DB time情况。
可以看到在短时间内确实有了很大的提升,但是还没有达到阀值,所以没有报警,这种变化似乎也是可以接受的。
这个时候查看归档的情况,因为数据变更很小,50M的redo平时切换都不多,结果这个时候一看。
sh showarchrate.sh
DBNAME TIME_STAMP
--------- ------------------------------------------------------------
DOOP 2015-Oct-27 18:16:39
GROUP# THREAD# SEQUENCE# MEMBERS SIZE_MB ARC STATUS
---------- ---------- ---------- ---------- ---------- --- ----------------
1 1 104404 1 50 YES ACTIVE
2 1 104405 1 50 NO ACTIVE
3 1 104406 1 50 NO CURRENT
在短短的10分钟,redo切换竟然达到了400多次。
问题到这个程度,想不重视都难,来看看是否是因为sql语句导致。结果发现有几条sql语句还是存在明显的问题。
$ sh showsnapsql.sh 17874
SNAP_ID SQL_ID EXECUTIONS_DELTA ELAPSED_TI PER_TOTAL
---------- ------------- ---------------- ---------- ----------
17874 0j7ntjx8km98j 72 576s 26%
17874 6bz586uwmw2ry 0 582s 26%
17874 3y93ywsfgbsnx 0 558s 25%
17874 cwq7h73hmda0p 12 108s 5%
17874 ckv5fwgrvsx4j 12 79s 3%
第一条语句是一个关联delete,目前来看性能尚可接受
第二,第三条的语句竟然是
create table test_login_bak as select * from t_login t
create table _test_heart_bak as select * from t_heart t
这种操作明显不是程序端发过来的,但是得确认一下,从ash里面看看。发现是一个PL/SQL Dev操作的,哪个客户端一目了然。
sh showsqlsess.sh 6bz586uwmw2ry
SESSION_ID SESSION_TY USERNAME PROGRAM MODULE ACTION MACHINE
---------- ---------- -------------------- ------- -------------------- -------------------- ---------- ------------------------------
1993 FOREGROUND TEST_BI plsqldev.exe PL/SQL Developer SQL Window- Query data of table TEST-INC\TEST5431
问题到了这个程度也就很明显了,这种操作就是不太合理的,因为数据量都在亿级,这种操作真是让人胆战心惊啊。
而且关键使用的用户竟然是属主用户,因为为了隔离权限,所有开发人员的账户都是一个连接用户,通过同义词来访问,这个时候看似这位同学不知怎么拿到了密码,直接来操作了。
当我们准备联系开发的同学时,发现产生的日志量更大了。
使用脚本来跟踪,发现top SQL变了,所以赶紧联系他们,想他们了解他们需要做什么工作。
有一条新增的语句
SQL_FULLTEXT
-----------------------------
delete from t_heart t
最后得到的反馈是需要数据清理。好吧,这种事情还是需要DBA来帮着把把关。
迅速沟通后,就先终止了这个过程。这个时候redo切换了近900多次。
通过上面的案例,可以看到其实还是需要对一些操作进行规范和限制,保证在DBA的工作中不会有太多节外生枝的事情,而且这个部分也需要开发和DBA进行充分的沟通。
一条空间不足报警的分析
时间: 2024-10-23 18:22:33
一条空间不足报警的分析的相关文章
system表空间不足的问题分析(二)
今天收到一条不太起眼的报警邮件,大体内容是某个表空间的空间有些紧张了.大体内容如下:Tablesapce: CMBI_SNZG_DATA: 92.2% [Warning!] 根据这个信息,很明显是需要添加数据文件了,但是同时还有一个警告就是磁盘空间也告警了,那么这个看起来简单的问题得好好琢磨琢磨了,其实是几件事,一件是做一些数据清理,释放部分表空间,甚至可以通过释放数据文件的空间来进一步释放磁盘空间,第二件是给表空间告警的表空间添加数据文件. 首先查看数据库中的用户占有的数据量的情况,可以看到
system表空间不足的问题分析
很多事情见多了也就有了麻木的感觉,报警短信就是如此,每天总能收到不少的报警短信,可能很多时候就扫一眼,如果没有严重的问题自己是不会情愿打开电脑处理的. 对于此,有些朋友说是不是阀值太低了,调高一些报警就少了,如果那样做,监控的意义也就大大不同了.很多时候硬件错误或者系统错误不是突然出现问题,而是在一些异常的情况下运行,时间长了,难免出错,打个比方,如果两个配置一模一样的系统,一个内核参数有问题,资源使用有异常,总是CPU满负荷空跑,产生了大量的IO浪费,而另外一台,就是真正的空闲,负载不高,各项
一条关于swap争用的报警邮件分析(一)
最近这些天有一台服务器总是会收到剩余swap过低的告警. 邮件内容大体如下: ############ ZABBIX-监控系统: ------------------------------------ 报警内容: Lack of free swap space on ora_test_s2_yangjr@10.127.2.xxxx ------------------------------------ 报警级别: PROBLEM -------------------------------
一条关于swap争用的报警邮件分析
杨建荣的学习笔记 | 2016-02-09 22:28 最近收到报警,某一个服务器的swap空间有些紧张,查看这台服务器上有两个备库数据库实例,当然负载还是很低的.但是目前来看,内存已经所剩无几,所以自然而然会用到swap,而且swap也看起来紧张了,从设计的角度来看,这种方式还是有很大的隐患,一旦需要切换,这台服务器还是很有可能出现oom-killer的情况,也就意味着宕机.所以从小从大来看这个报警都不能掉以轻心. 使用top查看的情况如下,可以看到swap已经很紧张了,剩余内存不到300M了
一条简单的报警信息发现的oracle bug
系统中有这样一条报警信息,看似比较简单,但是引起了我的注意,主要原因是因为这是一个10gR2的备库,备库如果出现这样的问题,看起来似乎是在归档删除上存在一些问题. [DB监控系统]_ora_test_s2_yangjr@10.127.2.133_报警 ZABBIX-监控系统: ------------------------------------ 报警内容: Free disk space is less than 20% on volume /opt --------------------
temp 表空间无法扩展 案例分析
http://happay99.blog.hexun.com/40831530_d.html 解决ora-01652无法通过128(在temp表空间中)扩展temp段的过程 执行一个sql语句后,大约花了10分钟,好不容易有一个结果,但是报了一个ora-01652错误,查阅了oracle的错误代码说明:意思是指temp表空间无法自动扩展temp段.这种问题一般有两种原因:一是临时表空间空间太小,二是不能自动扩展. 分析过程: 既然是temp表空间有问题,那当然就要从temp表空间说起啦.
百度空间的popup效果分析第1/3页_javascript技巧
百度空间的弹出窗口和拖拽效果,看起来挺不错的.现在很多知名网站都是用的这样的技术.下面把我down的js代码发出来,我分析了一部分,但是还有很多东西不明白怎么回事,没有写注释的部分,还请高手能帮我解释一下.本人属于初学,有不对的地方还请多多指教. 在声明一条吧,此代码仅做学习用,技术版权属于百度. 主要是一个叫做:popup.js的文件,如下: /**//*********************************************** popup.js***************
一则orabbix报警的分析(第一篇)
最近使用zabbix监控之后,都会在凌晨收到1台数据库服务器的报警短信,报警的内容为: No data received from Orabbix 这个错误其实就是orabbix通过jdbc已经接受不到数据库实例的信息了,但是隔了10来分钟之后,又会收到问题恢复的短信. 既然问题已经自动修复了,可能在那个时间段里有一些固定的操作,操作完成之后,数据库实例的负载就自动恢复了. 可以从监控DB time的趋势图中看出一些端倪. 根据提示的信息查看了问题时间段的awr和对应ash报告. 先来看awr报
用户空间缺页异常pte_handle_fault()分析--(上)【转】
转自:http://blog.csdn.net/vanbreaker/article/details/7881206 版权声明:本文为博主原创文章,未经博主允许不得转载. 前面简单的分析了内核处理用户空间缺页异常的流程,进入到了handle_mm_fault()函数,该函数为触发缺页异常的地址address分配各级的页目录,也就是说现在已经拥有了一个和address配对的pte了,但是这个pte如何去映射物理页框,内核又得根据pte的状态进行分类和判断,而这个过程又会牵扯出一些其他