RDMA
-
绕开TCP内卷 UDP上如何实现可靠传输 RUDP与UDT方案深度对比
大家好,我是老架构师阿宽。咱们在做系统设计,特别是涉及到网络通信的时候,TCP 几乎是默认选项,毕竟可靠。但有时候,TCP 的一些“固执”特性,比如严格的顺序保证、队头阻塞,还有那相对固定的拥塞控制策略,在某些场景下反而成了性能瓶le颈,...
-
为什么在大规模 DDP 分布式训练中,开启 NVIDIA MPS 反而是个“灾难”?
在日常的 GPU 算力优化工作中, NVIDIA MPS(Multi-Process Service,多进程服务) 经常被誉为提升 GPU 利用率的“银弹”。在单卡运行多个轻量级推理任务,或者小规模多进程数据处理时,MPS 通过允许多个...
-
突破通信瓶颈:vLLM 混合并行与 K8s 拓扑感知调度深度实践
在大规模 LLM(如 Llama-3-70B、Mixtral-8x22B 等)推理场景下,基于 vLLM 的分布式推理服务面临着极其严苛的时延挑战。 Tensor Parallelism(张量并行,简称 TP)由于在每个 Transf...
-
深度解析:SPDK 在 NVMe-oF(TCP/RDMA)下相较于内核驱动有哪些核心技术优化?
在现代超大规模数据中心和高性能存储架构中,NVMe-oF(NVMe over Fabrics)已经成为连接计算节点与存储节点的标准协议。 然而,当底层存储介质(如 Optane、QLC/TLC 闪存)的物理延迟降低到微秒级,网络带宽飙...
-
突破网络瓶颈:SPDK NVMe-oF TCP 架构下的 io_uring 与 eBPF 套接字优化实践
在 NVMe-over-Fabrics (NVMe-oF) TCP 部署中,尽管 SPDK(Storage Performance Development Kit)利用用户态、轮询模式(Poll-mode)驱动极大地释放了 SSD 的吞吐...
-
SPDK NVMe-oF 性能实测:RDMA 与 AF_XDP TCP 延迟与 CPU 损耗的深度量化剖析
在超大规模数据中心和高性能存储架构中,如何压榨网络协议栈的每一分性能是永恒的主题。SPDK(Storage Performance Development Kit)作为用户态存储领域的标杆,其 NVMe-oF(NVMe over Fabr...