LLM 推理 - Nvidia TensorRT-LLM 与 Triton Inference Server

1. LLM 推理 - TensorRT-LLM 与 Triton Inference Server 随着LLM越来越热门，LLM的推理服务也得到越来越多的关注与探索。在推理框架方面，tensorrt-llm是非常主流的开源框架，在Nvidia GPU上提供了多种优化，加速大语言模型的推理。但是，t