TensorRT-LLM部署Qwen3-14B-洪萨配资

TensorRT-LLM部署

TensorRT-LLM 官方文档地址：https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址：https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像， docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意：release版本镜像并没有将模型转换checkpoint的依赖环境，没有tensorrt-llm ,需要手动安装，或者找其他版本的镜像（本人测试了 devel 版本（nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4）仍然没有，网络建议的build版本、engine版本没有找到，只能自己安装）

进入镜像，安装相关的的依赖：

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列，还必须安装： pip install tiktoken pip install einops #如果你是 LLaMA： pip install protobuf #如果你用 chatml / tokenizer 的特殊格式： pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录： /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址： https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录： /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint：

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源，但是当前只使用一个镜像自己完成所有的过程，则需要GPU资源
原则上不需要 GPU
仅涉及权重 reshape/分片
仅涉及 JSON 结构、配置生成
不包含算子编译

构建engine文件：

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意：
engine构建是需要GPU资源的，构建engine的GPU资源需要和部实际部署的GPU资源保持一致，
例如：部署使用单卡L20，则构建的engine必须使用相同的GPU资源，型号数量要相同
此步骤需要：
CUDA kernel 生成
TensorRT builder 编译
GPU 上的 profile 校准
Plugin 编译优化
必须使用 GPU
TensorRT engine 构建只能在 GPU 上完成
并且必须使用目标 GPU（或者至少与目标 GPU 架构兼容）
为什么需要 GPU？
TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
不同显卡（A100 / H100 / L20 / RTX4090）生成的 Engine 不能通用！

部署engine：

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096

基于Keil5的51单片机开发环境搭建实战案例

从零开始搭建51单片机开发环境：Keil5实战避坑全指南你是不是也经历过这样的时刻？刚下定决心学单片机，满怀期待地打开电脑安装Keil5，结果点开新建工程时却发现—— 根本没有C51选项 ！或者好不容易编译出HEX文件&…

李华

CCS使用深度剖析：TI C2000调试器配置超详细版

CCS调试实战指南：手把手教你搞定C2000调试器配置你有没有遇到过这样的场景？代码写得飞快，算法逻辑清晰，信心满满地点下“Debug”按钮——结果弹出一个红框：“Error connecting to the target: timed out.” 然后就是漫…

李华

15、WPF 控件皮肤与主题的深入探索

WPF 控件皮肤与主题的深入探索 1. 引言在过去，开发者在进行界面设计时往往面临巨大挑战，传统 GUI 框架如 Windows Forms 进行窗口形状、按钮样式等定制化操作需耗费大量精力。而 Windows Presentation Foundation（WPF）的出现改变了这一局面，它将界面皮肤化作为框架的重…

李华

27、WPF性能优化与控件自动化全解析

WPF性能优化与控件自动化全解析 1. WPF性能优化在WPF应用开发中，性能优化是一个关键的环节，它涉及到多个方面，包括硬件特性、网格处理、性能测量工具的使用以及提升用户感知响应性的方法。 1.1 硬件与网格处理命中测试特性：在硬件层面，命中测试功能是基于软件实现…

李华

CCS20环境下C5000中断系统配置实战

CCS20环境下C5000中断系统配置实战：从原理到调试的完整指南在嵌入式数字信号处理领域，TI的C5000系列DSP因其低功耗、高实时性与成熟生态，长期占据工业控制、音频采集和通信设备的核心位置。而随着开发工具链的演进，越来越多项目正…

李华

GPT-SoVITS模型AB测试框架：科学评估不同版本语音质量

GPT-SoVITS模型AB测试框架：科学评估不同版本语音质量在个性化语音合成技术飞速发展的今天，我们已经可以从几分钟的录音中“克隆”出一个高度拟真的声音。GPT-SoVITS 这类少样本语音克隆系统让这一过程变得前所未有的高效和可及。但随之而来的问题是&…

李华