c - seccomp --- 如何 EXIT_SUCCESS？

Question

在设置了严格模式 seccomp 后，如何进入 EXIT_SUCCESS。syscall(SYS_exit, EXIT_SUCCESS);在 main 结束时调用是正确的做法吗？

#include <stdlib.h>
#include <unistd.h> 
#include <sys/prctl.h>     
#include <linux/seccomp.h> 
#include <sys/syscall.h>

int main(int argc, char **argv) {
  prctl(PR_SET_SECCOMP, SECCOMP_MODE_STRICT);

  //return EXIT_SUCCESS; // does not work
  //_exit(EXIT_SUCCESS); // does not work
  // syscall(__NR_exit, EXIT_SUCCESS); // (EDIT) This works! Is this the ultimate answer and the right way to exit success from seccomp-ed programs?
  syscall(SYS_exit, EXIT_SUCCESS); // (EDIT) works; SYS_exit equals __NR_exit
}

// gcc seccomp.c -o seccomp && ./seccomp; echo "${?}" # I want 0

score 13 · Accepted Answer

如eigenstate.org和SECCOMP (2)中所述：

允许调用线程进行的唯一系统调用是 read(2)、write(2)、_exit(2)（但不是exit_group(2)）和 sigreturn(2)。其他系统调用会导致传递 SIGKILL 信号。

结果，人们期望_exit()工作，但它是一个包装函数，它调用exit_group(2)在严格模式下是不允许的（[1]，[2]），因此进程被杀死。

它甚至在exit(2) - Linux 手册页中有所报道：

在直到 2.3 版的 glibc 中，_exit() 包装函数调用了同名的内核系统调用。从 glibc 2.3 开始，包装函数调用 exit_group(2)，以终止进程中的所有线程。

该语句也会发生同样的情况return，它应该最终以与_exit().

跟踪该过程将提供进一步的确认（要允许它显示，您不必设置 PR_SET_SECCOMP；只需评论prctl()），对于两种非工作情况，我都得到了类似的输出：

linux12:/home/users/grad1459>gcc seccomp.c -o seccomp
linux12:/home/users/grad1459>strace ./seccomp
execve("./seccomp", ["./seccomp"], [/* 24 vars */]) = 0
brk(0)                                  = 0x8784000
access("/etc/ld.so.nohwcap", F_OK)      = -1 ENOENT (No such file or directory)
mmap2(NULL, 8192, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb775f000
access("/etc/ld.so.preload", R_OK)      = -1 ENOENT (No such file or directory)
open("/etc/ld.so.cache", O_RDONLY|O_CLOEXEC) = 3
fstat64(3, {st_mode=S_IFREG|0644, st_size=97472, ...}) = 0
mmap2(NULL, 97472, PROT_READ, MAP_PRIVATE, 3, 0) = 0xb7747000
close(3)                                = 0
access("/etc/ld.so.nohwcap", F_OK)      = -1 ENOENT (No such file or directory)
open("/lib/i386-linux-gnu/libc.so.6", O_RDONLY|O_CLOEXEC) = 3
read(3, "\177ELF\1\1\1\0\0\0\0\0\0\0\0\0\3\0\3\0\1\0\0\0\220\226\1\0004\0\0\0"..., 512) = 512
fstat64(3, {st_mode=S_IFREG|0755, st_size=1730024, ...}) = 0
mmap2(NULL, 1739484, PROT_READ|PROT_EXEC, MAP_PRIVATE|MAP_DENYWRITE, 3, 0) = 0xdd0000
mmap2(0xf73000, 12288, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_DENYWRITE, 3, 0x1a3) = 0xf73000
mmap2(0xf76000, 10972, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_FIXED|MAP_ANONYMOUS, -1, 0) = 0xf76000
close(3)                                = 0
mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7746000
set_thread_area({entry_number:-1 -> 6, base_addr:0xb7746900, limit:1048575, seg_32bit:1, contents:0, read_exec_only:0, limit_in_pages:1, seg_not_present:0, useable:1}) = 0
mprotect(0xf73000, 8192, PROT_READ)     = 0
mprotect(0x8049000, 4096, PROT_READ)    = 0
mprotect(0x16e000, 4096, PROT_READ)     = 0
munmap(0xb7747000, 97472)               = 0
exit_group(0)                           = ?
linux12:/home/users/grad1459>

如您所见，exit_group()被称为，解释一切！

现在，正如您正确指出的那样，“ SYS_exit equals __NR_exit”；例如它在mit.syscall.h中定义：

#define SYS_exit __NR_exit

所以最后两个调用是等价的，即你可以使用你喜欢的那个，输出应该是这样的：

linux12:/home/users/grad1459>gcc seccomp.c -o seccomp && ./seccomp ; echo "${?}" 
0

附言

您当然可以filter自己定义并使用：

prctl(PR_SET_SECCOMP, SECCOMP_MODE_FILTER, filter);

正如在 eigenstate 链接中所解释的那样，允许_exit()（或者，严格来说，exit_group(2)），但只有当你真的需要并且知道你在做什么时才这样做。

score 8 · Accepted Answer

出现问题是因为 GNU C 库使用exit_group系统调用（如果可用）在 Linux 中而不是exit, 用于_exit()函数（请参阅sysdeps/unix/sysv/linux/_exit.c验证），并且如中所述man 2 prctl，exit_group严格的 seccomp 过滤器不允许使用系统调用。

因为_exit()函数调用发生在 C 库中，我们不能将它插入到我们自己的版本中（这只会执行exit系统调用）。（正常的进程清理在其他地方完成；在 Linux 中，该_exit()函数只执行终止进程的最终系统调用。）

我们可以要求 GNU C 库开发人员exit_group仅在当前进程中有多个线程时才在 Linux 中使用 syscall，但不幸的是，这并不容易，即使现在添加，也需要相当长的时间在大多数 Linux 发行版上都可以使用该功能。

幸运的是，我们可以放弃默认的严格过滤器，而是定义我们自己的过滤器。行为上有一个小的差异：杀死进程的明显信号将从SIGKILL变为SIGSYS。（实际上并没有传递信号，因为内核确实杀死了进程；只有导致进程死亡的明显信号编号发生了变化。）

此外，这甚至没有那么困难。我确实浪费了一些时间来研究一些 GCC 宏技巧，这些技巧会使管理允许的系统调用列表变得微不足道，但我认为这不是一个好方法：应该仔细考虑允许的系统调用列表——我们只添加exit_group()比较严格的过滤器，在这里！- 所以让它有点困难是可以的。

下面的代码，比如说example.c，已经过验证可以在 x86-64（x86 和 x86-64，即 32 位和64 位二进制文件）上的 4.4 内核（应该在 3.5 或更高版本的内核）上工作。但是，它应该适用于所有 Linux 架构，并且不需要或使用 libseccomp 库。

#define  _GNU_SOURCE
#include <stdlib.h>
#include <stddef.h>
#include <sys/prctl.h>
#include <sys/syscall.h>
#include <linux/seccomp.h>
#include <linux/filter.h>
#include <stdio.h>

static const struct sock_filter  strict_filter[] = {
    BPF_STMT(BPF_LD | BPF_W | BPF_ABS, (offsetof (struct seccomp_data, nr))),

    BPF_JUMP(BPF_JMP | BPF_JEQ, SYS_rt_sigreturn, 5, 0),
    BPF_JUMP(BPF_JMP | BPF_JEQ, SYS_read,         4, 0),
    BPF_JUMP(BPF_JMP | BPF_JEQ, SYS_write,        3, 0),
    BPF_JUMP(BPF_JMP | BPF_JEQ, SYS_exit,         2, 0),
    BPF_JUMP(BPF_JMP | BPF_JEQ, SYS_exit_group,   1, 0),

    BPF_STMT(BPF_RET | BPF_K, SECCOMP_RET_KILL),
    BPF_STMT(BPF_RET | BPF_K, SECCOMP_RET_ALLOW)
};

static const struct sock_fprog  strict = {
    .len = (unsigned short)( sizeof strict_filter / sizeof strict_filter[0] ),
    .filter = (struct sock_filter *)strict_filter
};

int main(void)
{
    /* To be able to set a custom filter, we need to set the "no new privs" flag.
       The Documentation/prctl/no_new_privs.txt file in the Linux kernel
       recommends this exact form: */
    if (prctl(PR_SET_NO_NEW_PRIVS, 1, 0, 0, 0)) {
        fprintf(stderr, "Cannot set no_new_privs: %m.\n");
        return EXIT_FAILURE;
    }
    if (prctl(PR_SET_SECCOMP, SECCOMP_MODE_FILTER, &strict)) {
        fprintf(stderr, "Cannot install seccomp filter: %m.\n");
        return EXIT_FAILURE;
    }

    /* The seccomp filter is now active.
       It differs from SECCOMP_SET_MODE_STRICT in two ways:
         1. exit_group syscall is allowed; it just terminates the
            process
         2. Parent/reaper sees SIGSYS as the killing signal instead of
            SIGKILL, if the process tries to do a syscall not in the
            explicitly allowed list
    */

    return EXIT_SUCCESS;
}

使用例如编译

gcc -Wall -O2 example.c -o example

并使用

./example

或在strace查看系统调用和库调用完成；

strace ./example

strict_filterBPF 程序真的很简单。第一个操作码将系统调用号加载到累加器中。接下来的五个操作码将其与可接受的系统调用号进行比较，如果找到，则跳转到允许系统调用的最终操作码。否则倒数第二个操作码会终止该进程。

请注意，尽管文档提到sigreturn是允许的系统调用，但 Linux 中系统调用的实际名称是rt_sigreturn. （很久以前就sigreturn被弃用了。）rt_sigreturn

此外，当安装过滤器时，操作码会被复制到内核内存中（参见kernel/seccomp.cLinux 内核源代码），因此如果以后修改数据，它不会以任何方式影响过滤器。static const换句话说，拥有这些结构对安全的影响为零。

我之所以使用static这些符号，是因为不需要在此编译单元之外（或在剥离的二进制文件中）显示符号，const并将数据放入 ELF 二进制文件的只读数据部分。

a 的形式BPF_JUMP(BPF_JMP | BPF_JEQ, nr, equals, differs)很简单：累加器（系统调用号）与nr. 如果它们相等，则equals跳过下一个操作码。否则，将differs跳过下一个操作码。

由于 equals 情况跳转到最后的操作码，您可以在顶部添加新的操作码（即，就在初始操作码之后），增加每个操作码的等于跳过计数。

请注意，printf()安装 seccomp 过滤器后将无法使用，因为在内部，C 库想要执行fstat系统调用（在标准输出上），以及brk为缓冲区分配一些内存的系统调用。

c - seccomp --- 如何 EXIT_SUCCESS？

2 回答 2

Related

Reference