模型推理服务化框架Triton保姆式教程(三):开发实践 本文将结合 TensorRT-LLM (作为后端推理引擎)与 Triton Inference Server 完成 LLM 服务部署工作。 另外,我撰写的大模型相关的博客及配套代码均整理放置在Github:llm-action,有需要的朋友自取。 简介 TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的Pyth...
1.拉取官方镜像(参考https://github.com/triton-inference-server/tensorrtllm_backend) 命令:docker pull nvcr.io/nvidia/tritonserver:23.10-trtllm-python-py3 运行后会有如下弹窗,会依次下载镜像内环境相关的包 进入docker: docker run --gpus all -itd --network=host -v your_direct/path(添加映射路径) ...