HOOOS

Slurm

如何用 AlphaFold-Multimer 落地抗原与海量天然抗体文库的盲筛对接管线

在没有已知抗体作为阳性对照的情况下，直接使用 AlphaFold-Multimer (AFM) 对数万甚至数百万个天然抗体序列进行盲筛对接，在计算资源（GPU 算力）和时间成本上是极不现实的。标准 AFM 预测一个抗原-抗体复合物通常...

265 2026/6/10 AlphaFold 抗体虚拟筛选生物信息学
单GPU多MPI跑GROMACS：如何通过NVIDIA MPS优化性能并彻底避免显存溢出

在利用高性能计算（HPC）集群运行分子动力学模拟时，GROMACS 凭借其对 GPU 的高效支持成为了行业标配。然而，在实际生产环境中，我们经常会遇到这样的尴尬场景：当模拟的体系较小（如少于 10 万原子），或者 CPU 核心数较...

320 2026/6/13 GROMACS NVIDIA MPS GPU优化
多卡多NUMA服务器性能调优：MPI进程、GPU与MPS守护进程的最优绑定实践

在多卡多NUMA（Non-Uniform Memory Access）架构的服务器上运行MPI（Message Passing Interface）大规模并行程序时，默认的调度策略往往会导致灾难性的性能抖动。如果一个MPI进程运行在...

275 2026/6/13 GPU MPI NUMA
Slurm 调度下 MPI 作业的 NVIDIA MPS 动态启停与自动配置方案

在利用 Slurm 调度器运行 MPI 多机多卡作业时，若多个 MPI 进程（Ranks）需要共享同一张 GPU 卡，默认情况下会因为 CUDA Context 切换开销巨大而导致显卡利用率低下。NVIDIA MPS（Multi-Proc...

291 1 2026/6/14 Slurm NVIDIA MPS MPI高性能计算
多节点 Slurm 集群中，如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态？

在大型 GPU 算力集群中，为了提升中小显存占用任务的吞吐量， NVIDIA MPS（Multi-Process Service，多进程服务）是一个几乎必选的方案。配合 Slurm 的 gres/mps 机制，多任务可以物理共享单...

298 2026/6/14 Slurm Ansible NVIDIA MPS