LLM 推理 - Nvidia TensorRT-LLM 与 Triton Inference Server

1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门,LLM的推理服务也得到越来越多的关注与探索。在推理框架方面,tensorrt-llm是非常主流的开源框架,在Nvidia GPU上提供了多种优化,加速大语言模型的推理。但是,t
posted @ 2024-06-26 19:38  ZacksTang  阅读(322)  评论(1编辑  收藏  举报