5分钟了解Docker原理之二，最容易的Cgroups介绍！

发布时间：2021-06-06 10:13:23 所属栏目：云计算来源：互联网

导读：cgroups，是实现docker功能的重要底层设施。如上图，使用cgroups，能够把操作系统的各项资源变成池子，然后通过配置获取相应的资源。那它是怎么实现的呢? 要注意cgroups这个名词，它有两个特性。首先是c，就是Control的意思，是个动词;第二部分，就是groups

cgroups，是实现docker功能的重要底层设施。如上图，使用cgroups，能够把操作系统的各项资源变成池子，然后通过配置获取相应的资源。

那它是怎么实现的呢?

要注意cgroups这个名词，它有两个特性。首先是c，就是Control的意思，是个动词;第二部分，就是groups，证明它是个组。

1. 动词的目标

control，用来限制什么呢?除了CPU、内存，还有啥?

使用mount命令，查看当前系统支持的限制目标，它有个专用的名词，叫做子系统。

# mount | grep cgroup

tmpfs on /sys/fs/cgroup type tmpfs (ro,nosuid,nodev,noexec,mode=755)

cgroup on /sys/fs/cgroup/systemd type cgroup (rw,nosuid,nodev,noexec,relatime,xattr,release_agent=/usr/lib/systemd/systemd-cgroups-agent,name=systemd)

cgroup on /sys/fs/cgroup/blkio type cgroup (rw,nosuid,nodev,noexec,relatime,blkio)

cgroup on /sys/fs/cgroup/devices type cgroup (rw,nosuid,nodev,noexec,relatime,devices)

cgroup on /sys/fs/cgroup/cpu,cpuacct type cgroup (rw,nosuid,nodev,noexec,relatime,cpuacct,cpu)

cgroup on /sys/fs/cgroup/net_cls,net_prio type cgroup (rw,nosuid,nodev,noexec,relatime,net_prio,net_cls)

cgroup on /sys/fs/cgroup/cpuset type cgroup (rw,nosuid,nodev,noexec,relatime,cpuset)

cgroup on /sys/fs/cgroup/memory type cgroup (rw,nosuid,nodev,noexec,relatime,memory)

cgroup on /sys/fs/cgroup/freezer type cgroup (rw,nosuid,nodev,noexec,relatime,freezer)

cgroup on /sys/fs/cgroup/pids type cgroup (rw,nosuid,nodev,noexec,relatime,pids)

cgroup on /sys/fs/cgroup/hugetlb type cgroup (rw,nosuid,nodev,noexec,relatime,hugetlb)

cgroup on /sys/fs/cgroup/perf_event type cgroup (rw,nosuid,nodev,noexec,relatime,perf_event)

不同的系统版本，会有一些细微的区别，大体上，子系统的分类包含下面这些：

cpu,cpuacct cpu主要限制进程的 cpu 使用率，cpuacct可以统计 cgroups 中的进程的 cpu 使用报告

cpuset 可以为 cgroups 中的进程分配单独的 cpu 节点或者内存节点，就像Numa做的那些事情一样

blkio 可以限制进程的块设备 io，比如物理设备(磁盘，固态硬盘，USB 等等)

devices 控制进程能够访问某些设备

net_cls 标记 cgroups 中进程的网络数据包，然后可以使用 tc 模块(traffic control)对数据包进行控制

net_prio — 这个子系统用来设计网络流量的优先级

freezer 可以挂起或者恢复 cgroups 中的进程。

ns 可以使不同 cgroups 下面的进程使用不同的 namespace

hugetlb 主要针对于HugeTLB系统进行限制，这是一个大页文件系统。

内容很多，但我们平常关注的大多数就是内存和CPU，这些繁杂的细节，不影响我们理解它的设计原则。

下面就以CPU为例，来看一下子系统的实际表现。

2. CPU使用限制的例子

首先，我们进入cpu子系统目录。

cd /sys/fs/cgroup/cpu

然后，创建一个组名为xjjdog的cgroups，这个名字，就叫做控制组。

mkdir xjjdog

这时候，神奇的事情发生了。我们使用ll命令，查看xjjdog目录中的内容，发现系统已经为我们默认生成了一堆文件。

# ll xjjdog/

total 0

-rw-r--r-- 1 root root 0 Jan 28 21:09 cgroup.clone_children

--w--w--w- 1 root root 0 Jan 28 21:09 cgroup.event_control

-rw-r--r-- 1 root root 0 Jan 28 21:09 cgroup.procs

-r--r--r-- 1 root root 0 Jan 28 21:09 cpuacct.stat

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpuacct.usage

-r--r--r-- 1 root root 0 Jan 28 21:09 cpuacct.usage_percpu

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpu.cfs_period_us

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpu.cfs_quota_us

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpu.rt_period_us

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpu.rt_runtime_us

-rw-r--r-- 1 root root 0 Jan 28 21:09 cpu.shares

-r--r--r-- 1 root root 0 Jan 28 21:09 cpu.stat

-rw-r--r-- 1 root root 0 Jan 28 21:09 notify_on_release

-rw-r--r-- 1 root root 0 Jan 28 21:09 tasks

通过控制这些文件里面的数值，就可以对资源进行限制。比如cpu.cfs_quota_us文件，如果我们往里写入100000(十万)，那么就证明使用了xjjdog的cgroup，最多能够使用1核的CPU。写入20000，证明最多使用使用1/5核的CPU。

这是因为，cpu.cfs_period_us这个配置文件，默认把1核cpu分成了10万份。

那我们就写入20000试一下。

sudo echo 20000 > xjjdog/cpu.cfs_quota_us

我们把当前shell的pid，加入被受控进程列表。

echo $$ > xjjdog/tasks

执行完毕之后，再启动一个死循环。

while true;do ;done;

重新打开一个shell，使用top观察CPU的使用率。可以发现，我们的死循环，最多只使用了20%的CPU。us保持在20%以下，且不间断的在各个cpu之间切换。

依次试验以下的命令，可以发现CPU的使用，会逐步增加，大体上和我们的限额是相等的。

sudo echo 40000 > xjjdog/cpu.cfs_quota_us

sudo echo 60000 > xjjdog/cpu.cfs_quota_us

sudo echo 100000 > xjjdog/cpu.cfs_quota_us

其他的资源限制，都是类似的思路。那么最重要的工作，就是需要知道cpu.cfs_quota_us这样的字眼，代表的是什么意思，这些对着手册来看是很容易掌握的。比如quota是配额的意思，很明显就是限制资源的使用。

如上图，子系统可以控制多个tasks，把它纳入到控制组之内。我们上篇文章讲到，可以将bash进程，作为docker系统的1号进程，那么同样的，这个1号进程的子进程，都会共享同样的限额配置。

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Qlik 用主动智可以引领	以往五年 PolarDB云原
监控Kubernetes的最佳	VMware面对多云解决方