在多卡(Multi-GPU)环境下部署复杂的大模型流水线或级联模型(Ensemble/Pipeline)时,GPU 之间的数据传输延迟往往会成为整个吞吐链路的致命瓶颈。 典型的级联场景(例如: Visual Grounding 任务中...