Docker 容器 OOM 时，共享内存与 Robust Mutex 会发生什么？底层内核机制与 Namespace 影响深度剖析

在 Linux 容器（Docker）环境中，当容器内发生 OOM（Out of Memory）并触发内核 OOM Killer 强杀进程时，多进程协同系统的开发者往往会面临一系列棘手的状态一致性问题。尤其是当系统依赖共享内存（Shared Memory）和强健互斥锁（Robust Mutex）进行跨进程通信和同步时，容器的隔离机制（Namespace）会以一种微妙的方式改变这些资源的生命周期和清理行为。

要理清这一过程，我们需要将问题拆解为三个层面：OOM 级联杀进程机制、共享内存段在 Namespace 下的生命周期，以及 Robust Mutex 在内核退出流程中的清理行为。

一、 OOM Killer 与 PID Namespace 的级联效应

当容器（cgroup）的内存用量达到上限，内核 OOM Killer 会被激活。它会挑选一个或多个进程发送 SIGKILL 信号。

在 Docker 容器中，PID Namespace 决定了进程的生存关系：

PID 1 进程的特殊性：容器内的初始进程（PID 1）在 PID Namespace 中具有决定性作用。如果被 OOM Killer 选中的是 PID 1，或者 PID 1 意外死亡，内核会向该 PID Namespace 内的所有其他进程发送 SIGKILL 信号。
非 PID 1 进程被杀：如果被杀的是普通子进程，且 PID 1 依然存活，则只有该特定进程会被终止。

这种级联杀死行为，直接决定了后续共享内存和 Mutex 的状态变迁——是单个进程猝死导致部分锁丢失，还是整个容器内所有进程瞬间全军覆没。

二、共享内存段（Shared Memory）的生命周期

容器中常用的共享内存有两种：System V 共享内存（shmget）和 POSIX 共享内存（shm_open）。它们在不同的 Namespace 隔离下，有着截然不同的生命周期行为。

1. System V 共享内存与 IPC Namespace

System V IPC 资源（包括共享内存、信号量和消息队列）是受到 IPC Namespace 隔离的。

引用计数与释放时机：System V 共享内存在内核中由 struct shmid_kernel 表示。它的生命周期不随创建进程的死亡而结束，而是由内核维护的引用计数决定。
Namespace 销毁：当容器退出，且该容器独占的 IPC Namespace 内没有任何活动的进程，也没有任何挂载点引用该 Namespace 时，IPC Namespace 的引用计数（ns->count）归零。
内核路径：内核调用 free_ipc_ns() -> shm_destroy()，此时该 Namespace 内所有的 System V 共享内存段将被彻底释放。
例外情况：如果你在启动容器时指定了 --ipc=host 或 --ipc=container:X（共享 IPC Namespace），那么即使当前容器被 OOM 杀死，只要宿主机或其他共享该 Namespace 的容器还在运行，共享内存段就依然存在于内核中，其数据完好无损。

2. POSIX 共享内存与 Mount Namespace

POSIX 共享内存本质上是基于 tmpfs 文件系统实现的，通常挂载在 /dev/shm。

容器隔离机制：每个容器默认有自己独立的 Mount Namespace。
进程全灭但容器未删除：当容器内所有进程因 OOM 死亡后，容器会进入 Exited 状态。此时，虽然没有进程在运行，但容器的根文件系统和 /dev/shm 的挂载依然被 Docker 守护进程保留在宿主机的文件系统层（如 Overlay2 目录或激活的 Mount Namespace 挂载点中）。
因此，POSIX 共享内存文件不会在进程死亡时立即消失。只有当你执行 docker rm 彻底删除容器，或者容器被设置为 --rm 且自动销毁时，对应的 Mount Namespace 被卸载（umount），/dev/shm 下的虚拟文件才会连同 tmpfs 一起被销毁。

三、 Robust Mutex 的清理行为与 Namespace 影响

当持有锁的进程被 OOM Killer 发送 SIGKILL 瞬杀时，如果使用的是普通 Mutex，该锁将永远处于锁定状态，导致其他等待锁的进程死锁。为了解决这个问题，现代 Linux 广泛采用 Robust Mutex（pthread_mutexattr_setrobust）。

许多人担心：OOM 发生时，进程是猝死的，内核来得及清理 Robust Mutex 吗？Namespace 会不会阻碍内核的清理？

1. 内核清理 Robust Mutex 的底层链路

答案是：内核一定会清理，且与 Namespace 无关。

在 Linux 内核中，每个线程在创建时，glibc 都会通过 set_robust_list 系统调用向内核注册一个用户态的链表头（robust_list）。

当进程因 OOM 收到 SIGKILL 退出时，它会走入内核的退出流程（do_exit）：

[进程收到 SIGKILL]
       │
       ▼
  do_exit()  (kernel/exit.c)
       │
       ├─► exit_signals(tsk)
       │
       ├─► exit_robust_list(tsk)  ◄─── 关键步骤：在此处遍历并清理 Robust Mutex
       │
       ├─► exit_mm(tsk)           ◄─── 释放进程虚拟内存（销毁 VMA 映射）
       │
       ▼
[进程彻底死亡]

在 exit_robust_list 函数中：

内核会读取该线程注册的 robust_list。
由于此时进程的虚拟内存空间（mm_struct）尚未被释放（exit_mm 在后面才执行），内核能够安全地通过用户态虚拟地址访问到位于共享内存段中的 Mutex 变量。
内核将该 Mutex 的 Owner 字段（通常是持有者线程的 TID）强行修改为 FUTEX_OWNER_DIED 状态，并唤醒所有在该 Futex 上等待（futex_wait）的线程。
下一个争抢该锁的线程（无论是在本容器内还是在其他共享该内存的容器内）在调用 pthread_mutex_lock 时，会收到 EOWNERDEAD 错误。此时，该线程可以调用 pthread_mutex_consistent 来恢复状态并继续使用该锁。

2. Namespace 对 Robust Mutex 清理的影响

虽然内核处理 Robust Mutex 的行为是原子的、不受 Namespace 限制的，但 Namespace 决定的物理隔离边界会改变锁状态恢复的逻辑走向。

场景 A：单容器多进程，全员被 OOM 强杀（独立 PID/IPC Namespace）

如果容器内 PID 1 带着所有子进程一起被 OOM 杀掉，且没有与其他容器共享 Namespace。

现象：虽然内核在每个进程退出时，都勤恳地将共享内存里的 Mutex 标记为了 EOWNERDEAD。
结果：因为所有参与同步的进程都死了，这些被标记的 Mutex 已经没有任何意义。当容器重启、新进程重新启动时，它们面对的是一个“前世”遗留的共享内存。
注意点：如果新进程直接通过 shm_open 或 shmget 重新挂载这块共享内存，并试图去获取之前的锁，它们依然会收到 EOWNERDEAD。应用程序必须在初始化阶段具备清理或重置这类“脏” Mutex 的能力。

场景 B：跨容器共享内存通信（共享 IPC Namespace / 共享 Mount 卷）

这是高性能架构（如 DPDK、共享内存消息队列、主机/容器混合部署）中常见的场景。容器 A 中的 Worker 进程与容器 B 中的 Master 进程通过共享内存通信。容器 A 因 OOM 被杀，容器 B 存活。

现象：容器 A 的进程在 do_exit 时，内核遍历其注册的 robust list，修改共享内存中的锁状态。
结果：容器 B 中正在阻塞等待（pthread_mutex_lock）的进程会立刻被唤醒，并从系统调用中返回 EOWNERDEAD。
行为评估：这是最完美的 Robust Mutex 协作状态。尽管容器 A 和 B 处于不同的 PID Namespace，但由于它们共享了相同的内存介质，内核通过虚拟地址直接在底层的物理页面上修改了锁状态，Namespace 并没有成为阻碍。

四、总结与最佳实践

物理内存不会立即消失：只要容器没有被彻底删除（docker rm），即使所有进程被 OOM 强杀，POSIX 共享内存（/dev/shm）和 System V 共享内存依然保留在宿主机中。
Robust 机制绝对可靠：进程因 OOM 被 SIGKILL 属于异常退出，内核的 do_exit 能够百分之百确保 Robust Mutex 被标记为 EOWNERDEAD。这一行为在进程虚拟内存被销毁前完成，因此不受 Namespace 的隔离干扰。

应用层必须处理 EOWNERDEAD：
在编写依赖共享内存的跨进程应用时，获取锁的代码必须严格处理 EOWNERDEAD 返回值。例如：

int rc = pthread_mutex_lock(&shared_mutex);
if (rc == EOWNERDEAD) {
    // 1. 检查并修复共享内存中的业务数据一致性
    // ...
    // 2. 将 Mutex 重新标记为一致状态
    pthread_mutex_consistent(&shared_mutex);
}

容器化部署建议：
对于依赖共享内存的高可用多进程系统，建议将主控进程与工作进程分离部署。如果工作进程容易发生 OOM，可以将其放入独立的容器，通过 --ipc=container:main_container 与主容器共享 IPC 空间。这样工作进程被 OOM 杀掉时，主容器不仅能通过 Robust Mutex 机制立刻感知到 EOWNERDEAD 并收回控制权，还能避免整个系统一起崩溃。