HOOOS

vLLM

突破通信瓶颈：vLLM 混合并行与 K8s 拓扑感知调度深度实践

在大规模 LLM（如 Llama-3-70B、Mixtral-8x22B 等）推理场景下，基于 vLLM 的分布式推理服务面临着极其严苛的时延挑战。 Tensor Parallelism（张量并行，简称 TP）由于在每个 Transf...

317 2026/6/14 vLLM Kubernetes 拓扑感知调度 GPU优化
Triton 推理服务性能调优：如何通过 Dynamic Batching 与队列配置掐准延迟与吞吐的平衡点

在生产环境中部署深度学习模型时，我们经常面临一个看似不可调和的矛盾：为了压榨 GPU 的极限吞吐量（Throughput），我们需要尽可能把 Batch Size 攒得更大；而为了满足业务端极限制延（Latency SLA）的要求，请求...

329 1 2026/6/14 Triton MLOps 性能调优
榨干 GPU 性能：Triton 动态批处理与队列超时的黄金调优法则

在 AI 异步推理和高并发在线服务（Model Serving）的场景中，NVIDIA Triton Inference Server 几乎是行业标配。然而，很多工程师在部署模型时，经常遇到一个两难困境：追求吞吐量（Throu...

201 2026/6/15 Triton 模型部署性能优化