6

我在这个相对较大的代码库中工作,我看到文件描述符泄漏并且进程开始抱怨在我运行某些程序后它们无法打开文件。

虽然这发生在 6 天后,但我可以通过将 /proc/sys/fs/file-max 中的值减少到 9000 来在 3-4 小时内重现该问题。

随时都有许多进程在运行。我已经能够查明可能导致泄漏的几个过程。但是,我没有看到任何文件描述符通过 lsof 或 /proc//fd 泄漏。

如果我杀死我怀疑泄漏的进程(它们相互通信),泄漏就会消失。FD 被释放。

cat /proc/sys/fs/file-nr 在 while(1) 循环中显示泄漏。但是,我在任何过程中都没有看到任何泄漏。

这是我编写的用于检测正在发生泄漏的脚本:

#!/bin/bash

if [ "$#" != "2" ];then
    name=`basename $0`
    echo "Usage : $name <threshold for number of pids> <check_interval>"
    exit 1
fi


fd_threshold=$1
check_interval=$2
total_num_desc=0
touch pid_monitor.txt
nowdate=`date`
echo "=================================================================================================================================" >> pid_monitor.txt
echo "****************************************MONITORING STARTS AT $nowdate***************************************************" >> pid_monitor.txt

while [ 1 ]
do
    for x in `ps -ef | awk '{ print $2 }'`
    do
        if [ "$x" != "PID" ];then
            num_fd=`ls -l /proc/$x/fd 2>/dev/null | wc -l`
            pname=`cat /proc/$x/cmdline 2> /dev/null`
            total_num_desc=`expr $total_num_desc + $num_fd`
            if [ $num_fd -gt $fd_threshold ]; then
                echo "Proces name $pname($x) and number of open descriptor = $num_fd" >> pid_monitor.txt
            fi
        fi
    done
    total_nr_desc=`cat /proc/sys/fs/file-nr`
    lsof_desc=`lsof | wc -l`
    nowdate=`date`
    echo "$nowdate : Total number of open file descriptor = $total_num_desc lsof desc: = $lsof_desc file-nr descriptor = $total_nr_desc" >> pid_monitor.txt
    total_num_desc=0
    sleep $2
done

./monitor.fd.sh 500 2 & 尾 -f pid_monitor.txt

正如我之前提到的,我在 /proc//fd 中没有看到任何泄漏,但是肯定会发生泄漏,并且系统的文件描述符已用完。

我怀疑内核中的某些东西正在泄漏。Linux 内核版本 2.6.23。

我的问题如下:

  1. 将 'ls /proc//fd' 显示链接到进程的任何库的列表描述符 pid 。如果不是,我如何确定我链接到的库中何时存在泄漏。

  2. 我如何确认泄漏是在用户空间还是在内核中。

  3. 如果泄漏在内核中,我可以使用哪些工具进行调试?

  4. 你可以给我任何其他提示。

感谢您耐心地回答问题。

非常感谢任何帮助。

4

2 回答 2

1

找到了问题的解决方案。

在某些函数中发生了共享内存附加,并且该函数每 30 秒被调用一次。共享内存附加从未分离,因此描述符泄漏。我猜 /proc//fd 没有将共享内存附加显示为描述符。因此我的脚本无法捕获文件描述符泄漏。

于 2012-04-25T22:40:03.310 回答
0

哪些进程开始抱怨?你看到的错误是什么?您的监控脚本的输出是什么?

要打开一个文件,您需要两个东西,一个文件描述符和一个struct file- 或文件描述。文件描述符是用户空间使用的,在内核内部它用于查找struct file. 我不清楚你在泄漏哪个。

于 2012-04-22T10:49:09.933 回答