Triton 报 Shared Memory 内存不足？免重启在线清理与重建指南

在生产环境中部署 Triton Inference Server 时，为了追求极致的吞吐和极低的延迟，我们通常会开启**共享内存（Shared Memory，包括 System SHM 和 CUDA SHM）**来传输 Inference 的输入输出数据。

但这种方案有一个经典痛点：当客户端非正常退出、Client 端 Crash 或者高并发下垃圾回收不及时时，Triton 内部的内存管理器（Memory Manager）没有收到 Release 信号，导致共享内存块被锁死或泄露。最终就会在日志中频繁看到这个报错：

Failed to allocate memory in shared memory region 'xxxxx'

如果直接重启 Triton 服务，会造成短暂的服务不可用，这在生产环境中是不可接受的。本文将教你如何不重启 Triton 服务，通过 HTTP/gRPC API 在线清理并重建共享内存段。

核心解决思路

Triton 的共享内存生命周期是由 Triton 内部的 State Manager 和操作系统的 /dev/shm（针对 System SHM）共同维护的。在线修复的核心逻辑是：

查：调用 Triton 的 Status API，定位到具体泄露或写满的 Region 名称。
卸：通过 Triton 的 Unregister 接口，解绑并注销失效的共享内存段。
清：在宿主机/容器底层释放对应的物理/虚拟共享内存文件。
建：通过 Register 接口重新向 Triton 注册干净的共享内存段。

第一步：定位故障 Region（查）

首先，我们需要知道当前 Triton 注册了哪些共享内存，以及是谁占满了空间。

使用 curl 访问 Triton 的 System/CUDA 共享内存状态接口：

1. 查询 System Shared Memory 状态

curl -X GET http://localhost:8000/v2/systemsharedmemory/status

2. 查询 CUDA Shared Memory 状态

curl -X GET http://localhost:8000/v2/cudasharedmemory/status

返回的 JSON 会类似这样：

[
  {
    "name": "input_data_region",
    "key": "/input_data_shm",
    "offset": 0,
    "byte_size": 67108864
  }
]

这里的 name 是 Triton 内部标识该内存块的 Region Name，key 是它在 Linux 系统中对应的共享内存路径（即 /dev/shm/input_data_shm）。

第二步：在线注销共享内存（卸）

找到了出问题的 Region（假设名字叫 input_data_region）后，我们需要让 Triton 释放对它的控制。

注意：切忌直接去 Linux 下 rm /dev/shm/xxx，这会导致 Triton 内部指针悬空引发 Segment Fault 崩溃。必须先通过 API 注销！

方案 A：注销指定 Region

如果只想清理单块泄露的内存，不影响其他正常工作的 Client：

# 注销 System SHM 某个 region
curl -X POST http://localhost:8000/v2/systemsharedmemory/region/input_data_region/unregister

# 注销 CUDA SHM 某个 region
curl -X POST http://localhost:8000/v2/cudasharedmemory/region/input_data_region/unregister

方案 B：一键重置（注销所有 Region）

如果客户端已经全部重连，或者想做一次彻底的在线大扫除，可以直接调用全局注销接口：

# 注销所有 System SHM
curl -X POST http://localhost:8000/v2/systemsharedmemory/unregister

# 注销所有 CUDA SHM
curl -X POST http://localhost:8000/v2/cudasharedmemory/unregister

此操作非常安全，它只会释放 Triton 的映射关系，不会直接崩掉进程。

第三步：操作系统底层物理清理（清）

调用 Unregister 后，Triton 已经释放了映射。现在我们需要确保操作系统层面的僵尸内存块被彻底干掉。

对于 System SHM：

POSIX 共享内存在 Linux 中表现为 /dev/shm 下的文件。直接进容器或宿主机执行删除：

# 查看残留文件
ls -lh /dev/shm/

# 删除对应的共享内存文件（名字对应第一步查出来的 key）
rm -f /dev/shm/input_data_shm

对于 CUDA SHM：

CUDA IPC 共享内存没有显式的 /dev/shm 文件，它的生命周期跟进程绑定。当 Triton 端通过 API unregister 且客户端对应的 CUDA Context 释放后，显存会自动收回。
你可以通过 nvidia-smi 监控显存是否下降。如果没有下降，说明 Client 端进程仍有残留，需要 kill 掉僵尸 Client 进程。

第四步：重新注册并投入使用（建）

清理完毕后，我们需要重建并注册共享内存。通常这一步是由 Client 端的初始化代码 自动完成的。但如果你想手动干预测试，也可以通过 API 手动注册。

1. 重新注册 System SHM：

curl -X POST http://localhost:8000/v2/systemsharedmemory/region/input_data_region/register \
  -d '{
    "key": "/input_data_shm",
    "offset": 0,
    "byte_size": 67108864
  }'

2. 重新注册 CUDA SHM：

CUDA 共享内存需要传递 Raw CUDA Handle（通常通过 gRPC / C++ API 传递更为方便，不建议手敲 HTTP curl）。

最佳实践：如何彻底避免此问题？

在线清理终究是“消防预案”，要从根本上杜绝 Failed to allocate memory 报错，建议在架构设计上做以下优化：

1. 客户端加入 `atexit` 与异常捕获机制

客户端在退出、崩溃时，必须确保执行了 Unregister。
在 Python Client 中，务必使用 try...finally 或者 contextmanager 来包裹推理逻辑：

import tritonclient.grpc as grpcclient
from tritonclient.utils import *
import os

shm_op = grpcclient.service_pb2

try:
    triton_client = grpcclient.InferenceServerClient(url="localhost:8001")
    # 创建 shm
    shm_key = "/my_shm"
    shm_size = 1024 * 1024 * 64 # 64MB
    
    # 创建并注册
    create_shared_memory_region("my_region", shm_key, shm_size)
    triton_client.register_system_shared_memory("my_region", shm_key, shm_size)
    
    # 执行推理...
    
finally:
    # 无论如何，退出时必须反注册并清理
    try:
        triton_client.unregister_system_shared_memory(name="my_region")
    except Exception:
        pass
    unmap_shared_memory("my_region")

2. Docker 启动时分配合理的 `--shm-size`

如果是 Docker 部署 Triton，默认的 shm 大小只有 64M。高并发下极易爆掉。
启动容器时，请务必调大该参数（例如分配宿主机内存的一半）：

docker run --gpus all --shm-size=8g -p 8000:8000 -p 8001:8001 nvcr.io/nvidia/tritonserver:xx.xx-py3

通过这套在线「查-卸-清-建」流程，你可以在不干扰生产环境正常流量的前提下，秒级解决 Triton 的共享内存锁死问题。建议将上述 curl 逻辑封装进 MLOps 运维面板或自愈脚本中，实现故障自动恢复。