MPS
-
如何利用纳米技术提高药物分子生物利用度?
如何利用纳米技术提高药物分子生物利用度? 在药物开发过程中,许多具有治疗潜力的药物分子由于溶解性差、体内稳定性不足等问题,导致生物利用度低,限制了其临床应用。纳米技术和生物材料为解决这些问题提供了创新策略。以下是一些可以有效提高药物分...
-
单GPU多MPI跑GROMACS:如何通过NVIDIA MPS优化性能并彻底避免显存溢出
在利用高性能计算(HPC)集群运行分子动力学模拟时,GROMACS 凭借其对 GPU 的高效支持成为了行业标配。然而,在实际生产环境中,我们经常会遇到这样的尴尬场景: 当模拟的体系较小(如少于 10 万原子),或者 CPU 核心数较...
-
多卡多NUMA服务器性能调优:MPI进程、GPU与MPS守护进程的最优绑定实践
在多卡多NUMA(Non-Uniform Memory Access)架构的服务器上运行MPI(Message Passing Interface)大规模并行程序时,默认的调度策略往往会导致灾难性的性能抖动。 如果一个MPI进程运行在...
-
为什么开启 NVIDIA MPS 后 MPI 进程会突发 CUDA_ERROR_OUT_OF_MEMORY?原理剖析与排查指南
在利用 MPI(Message Passing Interface)进行多进程并行计算或分布式深度学习训练时,为了提高 GPU 利用率,我们常常会开启 NVIDIA MPS(Multi-Process Service)。MPS 的初衷是允...
-
Slurm 调度下 MPI 作业的 NVIDIA MPS 动态启停与自动配置方案
在利用 Slurm 调度器运行 MPI 多机多卡作业时,若多个 MPI 进程(Ranks)需要共享同一张 GPU 卡,默认情况下会因为 CUDA Context 切换开销巨大而导致显卡利用率低下。NVIDIA MPS(Multi-Proc...
-
多节点 Slurm 集群中,如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态?
在大型 GPU 算力集群中,为了提升中小显存占用任务的吞吐量, NVIDIA MPS(Multi-Process Service,多进程服务) 是一个几乎必选的方案。配合 Slurm 的 gres/mps 机制,多任务可以物理共享单...
-
为什么在大规模 DDP 分布式训练中,开启 NVIDIA MPS 反而是个“灾难”?
在日常的 GPU 算力优化工作中, NVIDIA MPS(Multi-Process Service,多进程服务) 经常被誉为提升 GPU 利用率的“银弹”。在单卡运行多个轻量级推理任务,或者小规模多进程数据处理时,MPS 通过允许多个...
-
深度解析:NVIDIA MIG 与 MPS 在算力切分上的底层隔离机制有何本质不同?
在 GPU 算力虚拟化和多租户共享的场景中,NVIDIA 提供了两种主流的切分技术: MPS(Multi-Process Service,多进程服务) 和 MIG(Multi-Instance GPU,多实例 GPU) 。 虽然这...
-
K8s 混合调度 MIG 与 MPS 的终极实践:把 GPU 榨出最后一滴油水
在 AI 推理服务的生产环境中,最让基础设施团队头疼的,莫过于 “显存闲置” 与 “算力浪费” 。 普通的 AI 推理任务(尤其是中小模型、NLP 分类、OCR、语音识别等)往往呈现“高频、低延迟、低 GPU 利用率”的特点。如...