在生产环境中部署 BERT、GPT 等 NLP 模型时,我们几乎都会开启 Triton Inference Server 的 Dynamic Batching(动态批处理) 。这个功能很香,能把多个客户端的单条请求攒成一个 Batch ...