Linux中获取某个进程的系统调用以及参数（故障排查案例）_linux shell

当一个程序发生故障时，有时候想通过了解该进程正在执行的系统调用来排查问题。通常可以用 strace 来跟踪。但是当进程已经处于 D 状态（uninterruptible sleep）时，strace 也帮不上忙。这时候可以通过

复制代码代码如下:

cat /proc/<PID>/syscall

来获取当前的系统调用以及参数。

这里用最近排查的一个问题为例。碰到的问题是，发现一台服务器在执行 pvcreate 创建物理卷的时候卡死，进程状态为 D

复制代码代码如下:

# ps aux|grep pvcreate
root 8443 0.0 0.0 27096 2152 ? D Apr04 0:00 pvcreate /dev/sddlmac
...

D 状态实际是在等待系统调用返回。那么来看看究竟在等待什么系统调用

复制代码代码如下:

B0313010:~ # cat /proc/8443/syscall
0 0x7 0x70f000 0x1000 0x0 0x7f33e1532e80 0x7f33e1532ed8 0x7fff3a6b8718 0x7f33e128cf00

第一个数字是系统调用号，后面是参数。不同的系统调用所需的参数个数不同。这里的字段数是按最大参数数量来的，所以不一定每个参数字段都有价值。那么怎么知道系统调用号对应哪个系统调用呢？在头文件 /usr/include/asm/unistd_64.h 中都有定义。也可以用个小脚本来快速查找：

复制代码代码如下:

#!/bin/bash
# usage: whichsyscall <syscall_nr>
nr="$1"
file="/usr/include/asm/unistd_64.h"
gawk '$1=="#define" && $3=="'$nr'" {sub("^__NR_","",$2);print $2}' "$file"

对于不同的系统调用的参数，可以通过 man 2 <系统调用名> 查阅。如 man 2 read。对刚才那个例子来说，0 就对应了 read 调用。而 read 调用的第一个参数是文件描述符。

之后用 lsof 找到 7 对应的是什么文件

复制代码代码如下:

# lsof -p 8443
COMMAND   PID USER   FD   TYPE DEVICE SIZE/OFF     NODE NAME
......
pvcreate 8443 root    5u   CHR 10,236      0t0    19499 /dev/mapper/control
pvcreate 8443 root    6u   BLK 253,1   0t8192 36340797 /dev/dm-1
pvcreate 8443 root    7u   BLK 253,5      0t0 35667968 /dev/dm-5

结果发现是个 device mapper 的设备文件。最后顺藤摸瓜，发现这个文件是 multipathd 创建的。而系统应当使用的是存储厂商提供的多路径软件。问题是由于同时开启了 multipathd 造成冲突导致的。

/proc/<PID>/syscall 对排查 D 状态进程很有用。不过在 2.6.18 内核上并不支持，具体从哪个内核版本开始有这个功能，还没查到。不过至少从在 2.6.32 以上版本都是支持的。

时间： 2024-10-26 04:08:59

Linux中获取某个进程的系统调用以及参数（故障排查案例）_linux shell

Linux中获取某个进程的系统调用以及参数（故障排查案例）_linux shell的相关文章

linux中编写自己的并发队列类(Queue 并发阻塞队列)_linux shell

Linux中线程和进程的区别

linux中fork创建进程讲解(转)

杀死Linux中的defunct进程(僵尸进程)的方法指南

如何在 Linux 中统计一个进程的线程数

Linux中应用程序如何使用系统调用syscall

Linux中如何让进程在后台运行

Linux 中清空或删除大文件内容的五种方法_Linux

linux多线程编程详解教程(线程通过信号量实现通信代码)_linux shell