CUDA 相关排序
最新 热门 点赞 热评

显存不够也能玩转AI制药：本地低配环境搭建 RFdiffusion + ProteinMPNN 工作流指南

作为蛋白质 de novo 设计领域的“黄金搭档”，RFdiffusion（负责骨架生成）和 ProteinMPNN（负责序列设计）几乎是目前计算生物学研究的标配。然而，官方文档中动辄要求 A100 或 24G 显存显卡的配置，让许多只有...

382 2026/6/6 蛋白质设计
单卡跑通万级突变：本地轻量化 ESMFold 部署与高通量筛选实战

在蛋白质工程和定向进化中，对成百上千个突变体进行结构预测是一项常见的任务。传统的 AlphaFold2 尽管精度极高，但由于需要进行耗时的 MSA（多序列比对）检索，在面对高通量突变体筛选时，算力成本和时间周期往往难以接受。 Meta...

261 2026/6/12 ESMFold 突变体筛选蛋白质结构预测
白嫖云端算力：如何用免费 Google Colab 运行 GPU 加速的 GROMACS 分子动力学模拟

对于从事计算生物学或计算化学的研究生和科研人员来说，本地缺乏高性能 GPU 算力是一个长期存在的痛点。Google Colab 提供的免费 T4 GPU 是一个极佳的“白嫖”资源。本文将手把手带你配置 Google Colab 环境...

356 2026/6/12 GROMACS 分子动力学模拟
GROMACS 中「-update gpu」报错的深度排查与解决方案：从算法限制到硬件配置

在分子动力学模拟中，GROMACS 的 -update gpu 参数（即在 GPU 上进行坐标/速度更新和约束求解）是压榨 GPU 性能、实现「极速模拟」的关键。通过将 Update 步骤留在 GPU 上，可以彻底避免每一帧在 CPU...

281 2026/6/13 GROMACS 分子动力学 GPU加速
彻底解决 GROMACS 模拟中的 CUDA Out of Memory：从域分解与显存分配机制谈起

在进行大体系分子动力学（MD）模拟或使用多卡/多路 CPU 强卡并行的生产环境中，GROMACS 报错 "Out of memory" 导致 CUDA 驱动崩溃是一个非常经典且让人头疼的问题。这类显存溢出（O...

240 2026/6/13 GROMACS CUDA错误域分解
单GPU多MPI跑GROMACS：如何通过NVIDIA MPS优化性能并彻底避免显存溢出

在利用高性能计算（HPC）集群运行分子动力学模拟时，GROMACS 凭借其对 GPU 的高效支持成为了行业标配。然而，在实际生产环境中，我们经常会遇到这样的尴尬场景：当模拟的体系较小（如少于 10 万原子），或者 CPU 核心数较...

319 2026/6/13 GROMACS NVIDIA MPS GPU优化
多卡多NUMA服务器性能调优：MPI进程、GPU与MPS守护进程的最优绑定实践

在多卡多NUMA（Non-Uniform Memory Access）架构的服务器上运行MPI（Message Passing Interface）大规模并行程序时，默认的调度策略往往会导致灾难性的性能抖动。如果一个MPI进程运行在...

274 2026/6/13 GPU MPI NUMA
为什么开启 NVIDIA MPS 后 MPI 进程会突发 CUDA_ERROR_OUT_OF_MEMORY？原理剖析与排查指南

在利用 MPI（Message Passing Interface）进行多进程并行计算或分布式深度学习训练时，为了提高 GPU 利用率，我们常常会开启 NVIDIA MPS（Multi-Process Service）。MPS 的初衷是允...

258 2026/6/13 CUDA NVIDIA MPS MPI
Slurm 调度下 MPI 作业的 NVIDIA MPS 动态启停与自动配置方案

在利用 Slurm 调度器运行 MPI 多机多卡作业时，若多个 MPI 进程（Ranks）需要共享同一张 GPU 卡，默认情况下会因为 CUDA Context 切换开销巨大而导致显卡利用率低下。NVIDIA MPS（Multi-Proc...

289 1 2026/6/14 Slurm NVIDIA MPS MPI高性能计算
多节点 Slurm 集群中，如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态？

在大型 GPU 算力集群中，为了提升中小显存占用任务的吞吐量， NVIDIA MPS（Multi-Process Service，多进程服务）是一个几乎必选的方案。配合 Slurm 的 gres/mps 机制，多任务可以物理共享单...

297 2026/6/14 Slurm Ansible NVIDIA MPS
K8s 混合调度 MIG 与 MPS 的终极实践：把 GPU 榨出最后一滴油水

在 AI 推理服务的生产环境中，最让基础设施团队头疼的，莫过于 “显存闲置” 与 “算力浪费” 。普通的 AI 推理任务（尤其是中小模型、NLP 分类、OCR、语音识别等）往往呈现“高频、低延迟、低 GPU 利用率”的特点。如...

312 2026/6/14 Kubernetes GPU虚拟化 AI推理
Triton 复杂推理流水线：Ensemble 与 BLS 的时延损耗深剖与选型指南

在将深度学习模型推向生产环境时，极少有单体模型能包揽全部业务逻辑。一个典型的工业级推理服务往往由多个模块级联而成：例如“ 目标检测（YOLO） -> 抠图与对齐（预处理） -> 特征提取（ResNet） -> 向量检索与...

252 2026/6/14 Triton 模型推理性能优化
拒绝万恶的H2D拷贝：在Triton中用CUDA共享内存实现大图推理极速优化

在智能视觉、工业缺陷检测、超分辨率等场景中，我们经常需要处理 4K 甚至 8K 的超大尺寸图像。在传统的推理流程中，即使你把 GPU 上的模型优化到了极致，端到端的时延依然可能高达几十甚至上百毫秒。用 Profiler 仔细分析就会...

297 2026/6/14 Triton CUDA 性能优化
高并发下的多卡 Triton 推理优化：如何利用 CUDA IPC 与 NCCL 实现跨卡零拷贝级联？

在多卡（Multi-GPU）环境下部署复杂的大模型流水线或级联模型（Ensemble/Pipeline）时，GPU 之间的数据传输延迟往往会成为整个吞吐链路的致命瓶颈。典型的级联场景（例如： Visual Grounding 任务中...

255 2026/6/15 Triton CUDA IPC NCCL
舍弃外部网关，改用 Triton BLS 编排模型，延迟能降多少？

在多模型级联（如 ASR + NLP + TTS，或者目标检测 + 裁剪 + 属性分类）的业务场景中，如何编排模型一直是个经典架构问题。常见的做法有两种：外部网关分桶/编排：在 Triton 外部写一个 Go/Pyth...

183 2026/6/15 Triton 模型部署延迟优化
Triton BLS 性能优化：如何优雅地实现 PyTorch 与 Triton Tensor 的「零拷贝」转换

在 Triton Inference Server 中编写 Python BLS（业务逻辑脚本）时，一个最容易忽视但也最致命的性能瓶颈就是 GPU 与 CPU 之间不必要的内存拷贝。很多刚接触 Triton 的同学，在编写 Py...

253 2026/6/15 Triton PyTorch 零拷贝
突破 IPC 瓶颈：如何在 Triton Python Backend 中优雅地使用 CUDA Shared Memory？

在高性能深度学习推理场景中， Triton Inference Server 凭其优秀的并发处理能力被广泛采用。然而，许多团队在使用 Python Backend 编写自定义预处理或模型后处理逻辑时，常常会遇到性能瓶颈。这个瓶...

235 2026/6/15 Triton CUDA 性能优化
Triton 架构下 Python 与 PyTorch Backend 的并发显存开销差异及泄露精准定位实践

在生产环境中部署深度学习模型时，NVIDIA Triton Inference Server 是最常用的高性能推理引擎之一。然而，许多开发者在从 PyTorch (LibTorch) Backend 迁移到 Python Backend，...

249 2026/6/16 Triton 显存泄漏 PyTorch
Triton 报 Shared Memory 内存不足？免重启在线清理与重建指南

在生产环境中部署 Triton Inference Server 时，为了追求极致的吞吐和极低的延迟，我们通常会开启**共享内存（Shared Memory，包括 System SHM 和 CUDA SHM）**来传输 Inference...

245 2026/6/16 Triton 共享内存深度学习部署
Triton共享内存在C++与Python客户端下的性能差异与调优实践

在利用 Triton Inference Server 部署高吞吐、低延迟的深度学习模型时，传统的 gRPC 或 HTTP 协议往往会因为数据序列化/反序列化以及网络栈拷贝成为系统瓶颈。特别是在处理超大图像、视频流或高维张量时，这...

294 2026/6/16 Triton 共享内存性能调优

CUDA 相关排序 最新热门点赞热评

显存不够也能玩转AI制药：本地低配环境搭建 RFdiffusion + ProteinMPNN 工作流指南

单卡跑通万级突变：本地轻量化 ESMFold 部署与高通量筛选实战

白嫖云端算力：如何用免费 Google Colab 运行 GPU 加速的 GROMACS 分子动力学模拟

GROMACS 中「-update gpu」报错的深度排查与解决方案：从算法限制到硬件配置

彻底解决 GROMACS 模拟中的 CUDA Out of Memory：从域分解与显存分配机制谈起

单GPU多MPI跑GROMACS：如何通过NVIDIA MPS优化性能并彻底避免显存溢出

多卡多NUMA服务器性能调优：MPI进程、GPU与MPS守护进程的最优绑定实践

为什么开启 NVIDIA MPS 后 MPI 进程会突发 CUDA_ERROR_OUT_OF_MEMORY？原理剖析与排查指南

Slurm 调度下 MPI 作业的 NVIDIA MPS 动态启停与自动配置方案

多节点 Slurm 集群中，如何用 Ansible 优雅地批量维护与巡检 GPU MPS 状态？

K8s 混合调度 MIG 与 MPS 的终极实践：把 GPU 榨出最后一滴油水

Triton 复杂推理流水线：Ensemble 与 BLS 的时延损耗深剖与选型指南

拒绝万恶的H2D拷贝：在Triton中用CUDA共享内存实现大图推理极速优化

高并发下的多卡 Triton 推理优化：如何利用 CUDA IPC 与 NCCL 实现跨卡零拷贝级联？

舍弃外部网关，改用 Triton BLS 编排模型，延迟能降多少？

Triton BLS 性能优化：如何优雅地实现 PyTorch 与 Triton Tensor 的「零拷贝」转换

突破 IPC 瓶颈：如何在 Triton Python Backend 中优雅地使用 CUDA Shared Memory？

Triton 架构下 Python 与 PyTorch Backend 的并发显存开销差异及泄露精准定位实践

Triton 报 Shared Memory 内存不足？免重启在线清理与重建指南

Triton共享内存在C++与Python客户端下的性能差异与调优实践

CUDA 相关排序
最新热门点赞热评