HOOOS

PyTorch 热门排序
最新 热门 点赞 热评 相关

显存不够怎么跑 RoseTTAFold2？超大蛋白质复合物轻量化预测实战

生命科学领域的研究者，大概都经历过被 CUDA out of memory （显存溢出）支配的恐惧。随着结构生物学进入“大复合物时代”，预测 2000aa（氨基酸残基）以上的超大蛋白质复合物已成常态。然而，RoseTTAFold2...

37 2026/6/11 显存优化蛋白质结构预测
单卡跑通万级突变：本地轻量化 ESMFold 部署与高通量筛选实战

在蛋白质工程和定向进化中，对成百上千个突变体进行结构预测是一项常见的任务。传统的 AlphaFold2 尽管精度极高，但由于需要进行耗时的 MSA（多序列比对）检索，在面对高通量突变体筛选时，算力成本和时间周期往往难以接受。 Meta...

29 2026/6/12 ESMFold 突变体筛选蛋白质结构预测
为什么开启 NVIDIA MPS 后 MPI 进程会突发 CUDA_ERROR_OUT_OF_MEMORY？原理剖析与排查指南

在利用 MPI（Message Passing Interface）进行多进程并行计算或分布式深度学习训练时，为了提高 GPU 利用率，我们常常会开启 NVIDIA MPS（Multi-Process Service）。MPS 的初衷是允...

20 2026/6/13 CUDA NVIDIA MPS MPI
K8s 混合调度 MIG 与 MPS 的终极实践：把 GPU 榨出最后一滴油水

在 AI 推理服务的生产环境中，最让基础设施团队头疼的，莫过于 “显存闲置” 与 “算力浪费” 。普通的 AI 推理任务（尤其是中小模型、NLP 分类、OCR、语音识别等）往往呈现“高频、低延迟、低 GPU 利用率”的特点。如...

13 2026/6/14 Kubernetes GPU虚拟化 AI推理
为什么在大规模 DDP 分布式训练中，开启 NVIDIA MPS 反而是个“灾难”？

在日常的 GPU 算力优化工作中， NVIDIA MPS（Multi-Process Service，多进程服务）经常被誉为提升 GPU 利用率的“银弹”。在单卡运行多个轻量级推理任务，或者小规模多进程数据处理时，MPS 通过允许多个...

13 2026/6/14 GPU PyTorch 分布式训练
拒绝万恶的H2D拷贝：在Triton中用CUDA共享内存实现大图推理极速优化

在智能视觉、工业缺陷检测、超分辨率等场景中，我们经常需要处理 4K 甚至 8K 的超大尺寸图像。在传统的推理流程中，即使你把 GPU 上的模型优化到了极致，端到端的时延依然可能高达几十甚至上百毫秒。用 Profiler 仔细分析就会...

12 2026/6/14 Triton CUDA 性能优化
突破通信瓶颈：vLLM 混合并行与 K8s 拓扑感知调度深度实践

在大规模 LLM（如 Llama-3-70B、Mixtral-8x22B 等）推理场景下，基于 vLLM 的分布式推理服务面临着极其严苛的时延挑战。 Tensor Parallelism（张量并行，简称 TP）由于在每个 Transf...

10 2026/6/14 vLLM Kubernetes 拓扑感知调度 GPU优化
Triton 复杂推理流水线：Ensemble 与 BLS 的时延损耗深剖与选型指南

在将深度学习模型推向生产环境时，极少有单体模型能包揽全部业务逻辑。一个典型的工业级推理服务往往由多个模块级联而成：例如“ 目标检测（YOLO） -> 抠图与对齐（预处理） -> 特征提取（ResNet） -> 向量检索与...

8 2026/6/14 Triton 模型推理性能优化
高并发下的多卡 Triton 推理优化：如何利用 CUDA IPC 与 NCCL 实现跨卡零拷贝级联？

在多卡（Multi-GPU）环境下部署复杂的大模型流水线或级联模型（Ensemble/Pipeline）时，GPU 之间的数据传输延迟往往会成为整个吞吐链路的致命瓶颈。典型的级联场景（例如： Visual Grounding 任务中...

6 2026/6/15 Triton CUDA IPC NCCL