nsenter 及 Linux命名空间 简介

  • 164

nsenter 是一个可以在指定进程的命令空间下,运行程序的命令,它位于 util-linux 包中。

nsenter 用途

nsenter 的一个典型用途是进入容器的网络名字空间,进行网络相关的排障。大多数容器,为了保持轻量,没有包含较为基础的命令,比如说 ippingtelnetsstcpdump等,这就给容器内的网络调试带来困扰。这时就可以使用 nsenter 命令仅进入到容器的网络命名空间,使用宿主机的相关命令调试容器网络。

此外,nsenter也可以进入 mntutsipcpiduser 命令空间,以及指定根目录和工作目录。

nsenter 及 Linux命名空间 简介

nsenter 使用

首先看下nsenter命令的语法:

nsenter [options] [program [arguments]]

options:
-t, --target pid:指定被进入命名空间的目标进程的pid
-m, --mount[=file]:进入mount命令空间。如果指定了file,则进入file的命令空间
-u, --uts[=file]:进入uts命令空间。如果指定了file,则进入file的命令空间
-i, --ipc[=file]:进入ipc命令空间。如果指定了file,则进入file的命令空间
-n, --net[=file]:进入net命令空间。如果指定了file,则进入file的命令空间
-p, --pid[=file]:进入pid命令空间。如果指定了file,则进入file的命令空间
-U, --user[=file]:进入user命令空间。如果指定了file,则进入file的命令空间
-G, --setgid gid:设置运行程序的gid
-S, --setuid uid:设置运行程序的uid
-r, --root[=directory]:设置根目录
-w, --wd[=directory]:设置工作目录
-F, --no-fork          do not fork before exec'ing <program>

-h, --help     display this help and exit
-V, --version  output version information and exit

For more details see nsenter(1).

如果没有给出program,则默认执行$SHELL。

示例:运行一个nginx容器,查看该容器的pid:docker inspect -f {{.State.Pid}} nginx

然后,使用nsenter命令进入该容器的网络命令空间:

# nsenter -t 25942  --uts --ipc --net --pid
root@docker:~# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1
    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
    inet 127.0.0.1/8 scope host lo
       valid_lft forever preferred_lft forever
3: eth0@if5472: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default
    link/ether 56:7b:98:07:30:bc brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 192.168.134.93/27 brd 192.168.134.95 scope global eth0
       valid_lft forever preferred_lft forever

通过内网 IP 地址,我们得知已成功进入容器内部。

原理 namespace

namespace 是 Linux 中一些进程的属性的作用域,使用命名空间,可以隔离不同的进程。

Linux在不断的添加命名空间,目前有:

  • mount:挂载命名空间,使进程有一个独立的挂载文件系统,始于Linux 2.4.19
  • ipc:ipc命名空间,使进程有一个独立的ipc,包括消息队列,共享内存和信号量,始于Linux 2.6.19
  • uts:uts命名空间,使进程有一个独立的hostname和domainname,始于Linux 2.6.19
  • net:network命令空间,使进程有一个独立的网络栈,始于Linux 2.6.24
  • pid:pid命名空间,使进程有一个独立的pid空间,始于Linux 2.6.24
  • user:user命名空间,是进程有一个独立的user空间,始于Linux 2.6.23,结束于Linux 3.8
  • cgroup:cgroup命名空间,使进程有一个独立的cgroup控制组,始于Linux 4.6

Linux的每个进程都具有命名空间,可以在/proc/$PID/ns目录中看到命名空间的文件描述符,

root@k8s-sit:~# cd /proc/1/ns
root@k8s-sit:/proc/1/ns# ls -l
total 0
lrwxrwxrwx 1 root root 0 Dec 15 11:11 cgroup -> cgroup:[4026531835]
lrwxrwxrwx 1 root root 0 Dec 15 11:11 ipc -> ipc:[4026531839]
lrwxrwxrwx 1 root root 0 Dec 15 11:11 mnt -> mnt:[4026531840]
lrwxrwxrwx 1 root root 0 Dec 15 11:11 net -> net:[4026531957]
lrwxrwxrwx 1 root root 0 Nov 27 05:02 pid -> pid:[4026531836]
lrwxrwxrwx 1 root root 0 Dec 15 11:11 user -> user:[4026531837]
lrwxrwxrwx 1 root root 0 Dec 15 11:11 uts -> uts:[4026531838]

系统调用 clone

clone是Linux的系统调用函数,用于创建一个新的进程。

clone 和 fork 比较类似,但更为精细化,比如说使用 clone 创建出的子进程可以共享父进程的虚拟地址空间,文件描述符表,信号处理表等等。不过这里要强调的是,clone 函数还能为新进程指定命名空间。clone的语法:

#define _GNU_SOURCE
#include <sched.h>

int clone(int (*fn)(void *), void *child_stack,
int flags, void *arg, ...
/* pid_t *ptid, void *newtls, pid_t *ctid */ );

其中flags即可指定命名空间,包括:

  • CLONE_NEWCGROUP:cgroup
  • CLONE_NEWIPC:ipc
  • CLONE_NEWNET:net
  • CLONE_NEWNS:mount
  • CLONE_NEWPID:pid
  • CLONE_NEWUSER:user
  • CLONE_NEWUTS:uts

使用示例:

pid = clone(childFunc, stackTop, CLONE_NEWUTS | SIGCHLD, argv[1]);

setns

clone用于创建新的命令空间,而setns则用来让当前线程(单线程即进程)加入一个命名空间。语法:

#define _GNU_SOURCE /* See feature_test_macros(7) */
#include <sched.h>

int setns(int fd, int nstype);

fd参数是一个指向一个命名空间的文件描述符,位于/proc/PID/ns/目录。nstype指定了允许进入的命名空间,一般可设置为0,表示允许进入所有命名空间。

因此,往往该函数的用法为:

  1. 调用setns函数:指定该线程的命名空间。
  2. 调用execvp函数:执行指定路径的程序,创建子进程并替换父进程。

这样,就可以指定命名空间运行新的程序了。代码示例:

#define _GNU_SOURCE
#include <fcntl.h>
#include <sched.h>
#include <unistd.h>
#include <stdlib.h>
#include <stdio.h>

#define errExit(msg) do { perror(msg); exit(EXIT_FAILURE); \
} while (0)

int
main(int argc, char *argv[])
{
int fd;

if (argc < 3) {
fprintf(stderr, "%s /proc/PID/ns/FILE cmd args...\n", argv[0]);
exit(EXIT_FAILURE);
}

fd = open(argv[1], O_RDONLY); /* Get file descriptor for namespace */
if (fd == -1)
errExit("open");

if (setns(fd, 0) == -1) /* Join that namespace */
errExit("setns");

execvp(argv[2], &argv[2]); /* Execute a command in namespace */
errExit("execvp");
}

使用示例:

./ns_exec /proc/3550/ns/uts /bin/bash

nsenter

那么,最后就是nsenter了,nsenter相当于在setns的示例程序之上做了一层封装,使我们无需指定命名空间的文件描述符,而是指定进程号即可。

指定进程号PID以及需要进入的命名空间后,nsenter会帮我们找到对应的命名空间文件描述符/proc/PID/ns/FD,然后使用该命名空间运行新的程序。

参考文档

继续阅读
avatar
  • 本文由 发表于 2020年12月15日
  • 除非特殊声明,本站文章许可协议为"署名-非商用-相同方式共享 4.0",转载请保留原链、作者等信息。
Kubernetes调度算法浅析 运维架构

Kubernetes调度算法浅析

在真正的生产环境中,如何合理的分配服务器资源、提高利用率、让整个集群运行的更加稳定使得 k8s-scheduler 这个角色在集群中的地位愈发重要。 (更多…)
K8S中Pod的四个阶段及状态分析 运维架构

K8S中Pod的四个阶段及状态分析

Kubernetes 中, pod 从创建到成功运行会分别处于不同的阶段,每个阶段又分为不同的状态,本文将简单介绍这个环节。 在 K8S 源码中,使用了 PodPhase 这个变量定义这几个阶段信息,...