HOOOS

NCCL

如何利用平行计算加速模型训练过程？

随着人工智能技术的迅猛发展，尤其是在深度学习领域，模型训练所需的数据量呈爆炸式增长。在这样的背景下，单线程的传统计算方式已难以满足需求。因此，平行计算作为一种有效提升训练速度的方法愈发受到重视。平行计算概念简介平行计算是指将一...

580 2025/2/9 平行计算模型训练深度学习
为什么在大规模 DDP 分布式训练中，开启 NVIDIA MPS 反而是个“灾难”？

在日常的 GPU 算力优化工作中， NVIDIA MPS（Multi-Process Service，多进程服务）经常被誉为提升 GPU 利用率的“银弹”。在单卡运行多个轻量级推理任务，或者小规模多进程数据处理时，MPS 通过允许多个...

246 2026/6/14 GPU PyTorch 分布式训练
突破通信瓶颈：vLLM 混合并行与 K8s 拓扑感知调度深度实践

在大规模 LLM（如 Llama-3-70B、Mixtral-8x22B 等）推理场景下，基于 vLLM 的分布式推理服务面临着极其严苛的时延挑战。 Tensor Parallelism（张量并行，简称 TP）由于在每个 Transf...

312 2026/6/14 vLLM Kubernetes 拓扑感知调度 GPU优化
高并发下的多卡 Triton 推理优化：如何利用 CUDA IPC 与 NCCL 实现跨卡零拷贝级联？

在多卡（Multi-GPU）环境下部署复杂的大模型流水线或级联模型（Ensemble/Pipeline）时，GPU 之间的数据传输延迟往往会成为整个吞吐链路的致命瓶颈。典型的级联场景（例如： Visual Grounding 任务中...

261 2026/6/15 Triton CUDA IPC NCCL