如何将在子命名空间中创建的挂载传播到父命名空间?
细节
我正在尝试创建一个工具来overlayfs
允许写入只读目录。棘手的一点是,我希望任何用户都能够在没有 root 权限的情况下使用它。因此,我希望这可以通过挂载命名空间来实现,前提是管理员已经挂载了一个共享目录,那么任何用户都应该能够在该树下创建从父命名空间可见的覆盖(因此任何用户登录贝壳可以看到覆盖安装)。
这是我尝试过的,但不起作用:
# admin creates a shared tree for users to mount under
sudo mkdir /overlays
# bind mount over itself with MS_REC | MS_SHARED
sudo mount --bind --rshared /overlays /overlays
假设用户想要创建一个覆盖/some/readonly/dir
,他们应该创建/overlays/user/{upper,work,mnt}
。我希望他们能够在/overlays
使用以下代码传播的目录下安装覆盖。
// user_overlay.c
#define _GNU_SOURCE
#include <sched.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>
#include <linux/capability.h>
#include <sys/mount.h>
#include <sys/types.h>
#include <sys/wait.h>
#include <unistd.h>
int child(void *args)
{
pid_t p;
p = mount("overlay", "/overlays/user/mnt", "overlay", 0, "lowerdir=/some/readonly/dir,upperdir=/overlays/user/upper,workdir=/overlays/user/work");
if (p == -1){
perror("Failed to mount overlay");
exit(1);
}
// Expose the mount to the parent namespace
p = mount("none", "/overlays/user/mnt", NULL, MS_SHARED, NULL);
if (p == -1){
perror("Failed to mark mount as shared");
exit(1);
}
// Exec bash so I can ensure that the mnt was created
// though in practice I would just daemonize this proc
// such that the mount is visible in the parent
// until this proc is killed
char *newargv[] = { "/bin/bash", NULL };
execv("/bin/bash", newargv);
perror("exec");
exit(EXIT_FAILURE);
return 0;
}
int main()
{
pid_t p = clone(child, malloc(4096) + 4096, CLONE_NEWNS | CLONE_NEWUSER | SIGCHLD, NULL);
if (p == -1) {
perror("clone");
exit(1);
}
// Wait until the bash proc in the child finishes
waitpid(p, NULL, 0);
return 0;
}
执行gcc user_overlay.c -o user_overlay && ./user_overlay
确实会在该子进程中安装覆盖,但/overlays/user/mnt
不会传播到父进程。/overlays/user/upper
但是,对父子节点的修改都是可见的。