Slurm
-
如何用 AlphaFold-Multimer 落地抗原与海量天然抗体文库的盲筛对接管线
在没有已知抗体作为阳性对照的情况下,直接使用 AlphaFold-Multimer (AFM) 对数万甚至数百万个天然抗体序列进行盲筛对接,在计算资源(GPU 算力)和时间成本上是极不现实的。标准 AFM 预测一个抗原-抗体复合物通常...
-
单GPU多MPI跑GROMACS:如何通过NVIDIA MPS优化性能并彻底避免显存溢出
在利用高性能计算(HPC)集群运行分子动力学模拟时,GROMACS 凭借其对 GPU 的高效支持成为了行业标配。然而,在实际生产环境中,我们经常会遇到这样的尴尬场景: 当模拟的体系较小(如少于 10 万原子),或者 CPU 核心数较...
-
多卡多NUMA服务器性能调优:MPI进程、GPU与MPS守护进程的最优绑定实践
在多卡多NUMA(Non-Uniform Memory Access)架构的服务器上运行MPI(Message Passing Interface)大规模并行程序时,默认的调度策略往往会导致灾难性的性能抖动。 如果一个MPI进程运行在...
-
Slurm 调度下 MPI 作业的 NVIDIA MPS 动态启停与自动配置方案
在利用 Slurm 调度器运行 MPI 多机多卡作业时,若多个 MPI 进程(Ranks)需要共享同一张 GPU 卡,默认情况下会因为 CUDA Context 切换开销巨大而导致显卡利用率低下。NVIDIA MPS(Multi-Proc...
-
多节点 Slurm 集群中,如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态?
在大型 GPU 算力集群中,为了提升中小显存占用任务的吞吐量, NVIDIA MPS(Multi-Process Service,多进程服务) 是一个几乎必选的方案。配合 Slurm 的 gres/mps 机制,多任务可以物理共享单...