服务器进程异常的原因分析(第二篇)

最近看到一个报警,是显示某一个oracle的备库进程数达到了2000多个。
ZABBIX-监控系统:

------------------------------------
报警内容: Too many OS processes on ora_xxx@10.127.13.123
------------------------------------
报警级别: PROBLEM
------------------------------------
监控项目: Number of processes:2003
------------------------------------
报警时间:2015.12.13-00:10:12

对于这个问题可以这么理解,这台服务器上只有一个Oracle备库实例,而且这个备库的业务量也其实不大,不到一百个。而现在进程有2000多个,哪里会消费这么多的进程资源呢,一个设想就是一些额外的系统级脚本运行导致,当然这个也是有前车之鉴。可以参考 服务器进程异常的原因分析 http://blog.itpub.net/23718752/viewspace-1812698/
但是问题也不总是一个模子里刻出来的,问题的原因也是千变万化。
对于这个问题,也是带着一丝的侥幸,首先登陆到服务器端。发现了下面的服务器情况。
top - 22:44:23 up 829 days,  1:35,  3 users,  load average: 0.00, 0.03, 0.00
Tasks: 2075 total,   1 running, 1889 sleeping,   0 stopped, 185 zombie
Cpu(s):  0.1% us,  0.1% sy,  0.0% ni, 99.1% id,  0.7% wa,  0.0% hi,  0.0% si
Mem:  16425208k total, 16371888k used,    53320k free,   389780k buffers
Swap:  8385920k total,   449736k used,  7936184k free, 12533064k cached
目前的服务器进程有2000多个,而且io等待也不高。1889个在sleep,185个僵尸进程,所以还是有什么特别的问题。
大概翻了几页进程信息,就发现CROND和一个sh运行脚本的进程有很多。
#  ps -ef|grep -i CROND|wc -l
449
# ps -ef|grep sh |wc -l
723
所以通过这些也能够大概看出来,应该是一个crontab的job相关的问题。
看一看磁盘的使用情况,df -h看看发现会卡住没有反应,那么问题似乎就是这儿了。
怎么知道df -h的时候命令卡在哪里呢? 可以简单使用strace测试一下。
#strace df -h
statfs("/tmp", {f_type=0x1021994, f_bsize=4096, f_blocks=2053151, f_bfree=1992224, f_bavail=1992224, f_files=2053151, f_ffree=2052612, f_fsid={0, 0}, f_namelen=255, f_frsize=4096}) = 0
write(1, "/dev/shm              7.9G  238M"..., 49/dev/shm              7.9G  238M  7.6G   3% /tmp
) = 49
statfs("/proc/sys/fs/binfmt_misc", {f_type=0x42494e4d, f_bsize=4096, f_blocks=0, f_bfree=0, f_bavail=0, f_files=0, f_ffree=0, f_fsid={0, 0}, f_namelen=255, f_frsize=4096}) = 0
statfs("/var/lib/nfs/rpc_pipefs", {f_type=0x67596969, f_bsize=4096, f_blocks=0, f_bfree=0, f_bavail=0, f_files=0, f_ffree=0, f_fsid={0, 0}, f_namelen=255, f_frsize=4096}) = 0
statfs("/home/oracle/backup_stage",  <unfinished ...>
可以发现运行的结果可以看出来,最后是卡在了/home/oracle/backup_stage这一步上了。如果是明眼人可能已经猜出来缘由了。
看一下挂载点的信息:
[@actvnew.cyou.com oracle]# mount
/dev/sda1 on / type ext3 (rw)
。。。
/dev/shm on /tmp type none (rw,bind)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)
sunrpc on /var/lib/nfs/rpc_pipefs type rpc_pipefs (rw)
10.11.148.174:/backup/10.127.xxxx.xxx_xxxx on /home/oracle/backup_stage type nfs (rw,bg,hard,intr,nolock,tcp,rsize=32768,wsize=32768,addr=10.11.148.174)
可以看到这个路径其实是使用了nfs的方式挂载的。
但是查看/etc/fstab的时候,发现已经注释了原来的挂载点信息
$ cat /etc/fstab
。。。
/dev/shm                /tmp                    none    rw,bind         0 0
#10.11.148.174:/backup/10.127.xxxx.xxxx_xxxx /home/oracle/backup_stage nfs rw,bg,soft,intr,nolock,tcp,rsize=32768,wsize=32768 0 0
从这个信息可以看似,之前的维护人员似乎意识到了这个挂载点失效了,直接给注释了。
但是实际上呢。查看/etc/mtab发现这个配置还在那里。
$ cat /etc/mtab
/dev/sda1 / ext3 rw 0 0
...
10.11.148.174:/backup/10.127.xxxx.xxx_xxx /home/oracle/backup_stage nfs rw,bg,hard,intr,nolock,tcp,rsize=32768,wsize=32768,addr=10.11.148.174 0 0
所以可以基本明确,这个是由nfs失效导致的一个问题。那么我们直接取消挂载好了。
# umount -f /home/oracle/backup_stage
umount2: Device or resource busy
umount: /home/oracle/backup_stage: device is busy
umount2: Device or resource busy
umount: /home/oracle/backup_stage: device is busy
强制也不行。
#umount -f /home/oracle/backup_stage
umount2: Device or resource busy
umount: /home/oracle/backup_stage: device is busy
而且进一步发现到了/home/oracle目录下,使用ls -l也会直接卡住。当然strace一下,发现还是由于这个/home/oracle/backup_stage导致的问题。
所以可以先初步解决问题,循序渐进,把问题的影响先降下来再除根。
所以清理了部分的进程情况,发现还有相当一部分的进程是由于rman相关的两个脚本导致的。而在这两个脚本中间接使用ll和mkdir -p的操作。
oracle     359   337  0  2015 ?        00:00:00 /bin/bash /home/oracle/dbadmin/scripts/rmanbak_stby.sh
oracle     577   575  0  2015 ?        00:00:00 /bin/sh -c . $HOME/.actvdbprofile;$HOME/dbadmin/scripts/rmanbak_stby.sh
对于NFS挂载点失效的情况下,简直就是灾难。所以简单使用awk命令生成批量的命令来清理
比如删除僵尸进程,可以采用下面的方式
# ps -ef|grep "defunct"|awk '{print "kill -9 " $2}'> kill_defunct.lst
清理之后,进程数马上降了下来。效果还是非常显著的。

然后进一步处理。关键就是使用fuser来清理相关的进程
# umount /home/oracle/backup_stage
umount: /home/oracle/backup_stage: device is busy
# umount -l /home/oracle/backup_stage
# umount -lf /home/oracle/backup_stage
umount: /home/oracle/backup_stage: not mounted
# fuser -k /home/oracle/backup_stage
# umount /home/oracle/backup_stage
umount: /home/oracle/backup_stage: not mounted
再次查看这个问题就基本解决了。
df -h和ls -l都没有问题了,当然后续还需要查看crontab中对于这个路径的引用,还是需要考虑重新制定或者重新建立新的nfs映射。

时间: 2024-09-13 02:04:46

服务器进程异常的原因分析(第二篇)的相关文章

服务器进程异常的原因分析

现在系统监控的工作处于过渡期,即对于Oracle的还是保留了gridcontrol的监控和报警,同时也保留了zabbix的报警,在发生问题的时候想看看哪个能监控的更到位一些,是否稳定等等,其实这个还真不好说,监控的好与不好都在于使用的情况,标准也不一样,不过从今天这个案例来看,系统级的监控还是zabbix要灵活一些. 今天收到的报警邮件如下: ZABBIX-监控系统:  ------------------------------------ 报警内容: Too many OS processe

Win10系统电脑无法登录LOL提示服务器连接异常的原因及解决方法

原因分析: 其实,该问题系统中防火墙导致的. 解决方法: 1.在开始菜单单击右键,点击"控制面板";  2.将查看方式修改为"小图标"或"大图标",然后点击"Windows 防火墙";  3.在左侧点击"启用或关闭 Windwos 防火墙";  4.分别将"专用网络设置"和"公用网络设置"下都点选"关闭 Windwos 防火墙",然后点击确定即可.

crontab设置导致的服务器进程异常问题

前几天的时候,有个同事问我一个问题,大体的意思是突然收到报警,服务器的进程数翻了好几倍,其实那个服务器也没有任何操作.所以想让我帮忙看看. 他自己也做了一些简单的分析,可以看出,里面含有大量的CRONTD进程,sendmail进程等,大概占用了近4000的进程. $ ps -ef|grep sendmail |wc -l                1317 $ ps -ef|grep postdrop|wc -l                 1317 $ ps -ef|grep CRON

android emulator虚拟设备分析第二篇之pipe

一.概述 qemu pipe也是一个虚拟设备,是一个通用的虚拟设备,用于提供guest os和emulator通信的功能,类似于一个抽象的通信层,这样就不用写很多虚拟设备了. 之前在guest os中有个qemud进程,也是干这个事的,使用虚拟设备ttyS1提供guest os和emulator通信的功能,速度比较慢,已被pipe所替代. 看本篇之前,必须看完第一篇:看完本篇,然后看第三篇,这两个是结合在一起的,都看完后建议回顾一下本篇. 基于通用的数据通信pipe,emulator提供了四种服

c 调用python出现异常的原因分析_C 语言

PyImport_ImportModule  失败可能的原因:没有形成module.解决方法:按python规定,新建一个 module_name 的文件夹, 里面有一个 __init__.py 和 module_name.py 文件 PyObject_GetAttrString(pModule,"pFunc") 失败的可能原因:pModule.py 文件本身有错误解决方法:单独运行pModule.py, 改正错误在VC环境中, 此时又需要将 module_name 文件夹删除,才能不

Android Force Close 出现的异常原因分析及解决方法_Android

一.原因: forceclose,意为强行关闭,当前应用程序发生了冲突. NullPointExection(空指针),IndexOutOfBoundsException(下标越界),就连Android API使用的顺序错误也可能导致(比如setContentView()之前进行了findViewById()操作)等等一系列未捕获异常 二.如何避免 如何避免弹出Force Close窗口 ,可以实现Thread.UncaughtExceptionHandler接口的uncaughtExcepti

服务器-DBAccessServer.exe进程异常

问题描述 DBAccessServer.exe进程异常 见多识广的大侠们: 现在有一个服务器L2,装有PrimoS数据库, 另有一个服务器model,运行程序PMS.exe,该程序实时计算,并将结果实时写入Primos数据库 现在异常就是: PMS.exe程序不断运行崩溃(当然,model服务器上有监控程序,检测到它运行失败时,会将它自动重启,且model服务器cpu占用率正常), pms.exe崩溃时,L2服务器的CPU占用率达到100%,每一次PMS.exe程序自动重启,在L2服务器上,产生

服务器出现非常多的sshd: root@notty进程是什么原因,ssh这台服务器也是没反应

问题描述 服务器出现非常多的sshd: root@notty进程是什么原因,ssh这台服务器也是没反应 超级多进程 65375 Sat Aug 22 15:37:05 2015 sshd: root@notty 1 65382 Sat Aug 22 18:16:00 2015 sshd: root@notty 1 65387 Sat Aug 22 23:59:24 2015 sshd: root@notty 1 65393 Sat Aug 22 20:03:47 2015 sshd: root@

服务器端口不可达的原因分析

问题描述 服务器端口不可达的原因分析 我的在线聊天服务器运行突然部分用户掉线,然后掉线的用户重新登入也不行,最后用工具测试,掉线的用户不能连上服务程序对于的端口9100了,把服务器重启之后恢复了,但是为什么部分用户会连不上服务器程序的端口,还请高手们能够赐教!在下感激不尽! 解决方案 查看一下服务器的日志等,看当时是不是服务器处理不了新的请求了