news 2026/6/10 3:08:41

TensorRT-LLM部署Qwen3-14B

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
TensorRT-LLM部署Qwen3-14B

TensorRT-LLM部署

TensorRT-LLM 官方文档地址:https://nvidia.github.io/TensorRT-LLM/overview.html

下载相关的镜像

Nvidia官方镜像网址:https://catalog.ngc.nvidia.com/search?filters=resourceType%7CContainer%7Ccontainer&query=tensorrt-llm

#下载Nvidia tensorRT-LLM 镜像, docker pull nvcr.io/nvidia/tensorrt-llm/release:1.2.0rc4

注意:release版本镜像并没有将模型转换checkpoint的依赖环境,没有tensorrt-llm ,需要手动安装,或者找其他版本的镜像(本人测试了 devel 版本(nvcr.io/nvidia/tensorrt-llm/devel:1.2.0rc4)仍然没有,网络建议的build版本、engine版本没有找到,只能自己安装)

进入镜像,安装相关的的依赖:

pip install tensorrt-llm pip install transformers accelerate sentencepiece safetensors huggingface_hu #如果你是 Qwen3 系列,还必须安装: pip install tiktoken pip install einops #如果你是 LLaMA: pip install protobuf #如果你用 chatml / tokenizer 的特殊格式: pip install sentencepiece

准备基础模型

Qwen3-14B: 官方镜像即可

#存放目录: /mnt/data/models/Qwen/Qwen3-14B

下载github转换脚本文件

TensorRT-LLMgithub地址: https://github.com/NVIDIA/TensorRT-LLM/blob/main/examples/models/core/qwen/convert_checkpoint.py

#存放文件目录: /mnt/data/models/tensor/convert_checkpoint.py

转换checkpoint:

python convert_checkpoint.py \ --model_dir /mnt/data/models/Qwen/Qwen3-14B \ --output_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/fp16 \ --dtype fp16

转换模型checkpoint不需要GPU资源,但是当前只使用一个镜像自己完成所有的过程,则需要GPU资源

原则上不需要 GPU

  • 仅涉及权重 reshape/分片
  • 仅涉及 JSON 结构、配置生成
  • 不包含算子编译

构建engine文件:

trtllm-build \ --checkpoint_dir /mnt/data/models/tensor/trt_checkpoints/qwen3-14b/float16 \ --output_dir /mnt/data/models/tensor/engine/qwen3-14b-engine \ --gemm_plugin float16 \ --max_batch_size 8 \ --max_input_len 2048 \ --max_seq_len 4096 \ --kv_cache_type paged \ --workers 16 \ --log_level info

注意:

engine构建是需要GPU资源的,构建engine的GPU资源需要和部实际部署的GPU资源保持一致,

例如:部署使用单卡L20,则构建的engine必须使用相同的GPU资源,型号数量要相同

此步骤需要:

  • CUDA kernel 生成
  • TensorRT builder 编译
  • GPU 上的 profile 校准
  • Plugin 编译优化

必须使用 GPU

  • TensorRT engine 构建只能在 GPU 上完成
  • 并且必须使用目标 GPU(或者至少与目标 GPU 架构兼容)

为什么需要 GPU?

  • TensorRT 需要 GPU 的Compute Capability来生成最优 kernel
  • 不同显卡(A100 / H100 / L20 / RTX4090)生成的 Engine 不能通用!

部署engine:

trtllm-serve serve /mnt/data/models/tensor/engine/qwen3-14b-engine \ --tokenizer /mnt/data/models/Qwen/Qwen3-14B \ --host 0.0.0.0 \ --port 8000 \ --log_level info \ --backend tensorrt \ --tp_size 1 \ --max_batch_size 8 \ --max_seq_len 4096
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 22:38:39

基于Keil5的51单片机开发环境搭建实战案例

从零开始搭建51单片机开发环境:Keil5实战避坑全指南 你是不是也经历过这样的时刻?刚下定决心学单片机,满怀期待地打开电脑安装Keil5,结果点开新建工程时却发现—— 根本没有C51选项 !或者好不容易编译出HEX文件&…

作者头像 李华
网站建设 2026/6/9 19:58:39

CCS使用深度剖析:TI C2000调试器配置超详细版

CCS调试实战指南:手把手教你搞定C2000调试器配置你有没有遇到过这样的场景?代码写得飞快,算法逻辑清晰,信心满满地点下“Debug”按钮——结果弹出一个红框:“Error connecting to the target: timed out.” 然后就是漫…

作者头像 李华
网站建设 2026/6/9 19:48:14

15、WPF 控件皮肤与主题的深入探索

WPF 控件皮肤与主题的深入探索 1. 引言 在过去,开发者在进行界面设计时往往面临巨大挑战,传统 GUI 框架如 Windows Forms 进行窗口形状、按钮样式等定制化操作需耗费大量精力。而 Windows Presentation Foundation(WPF)的出现改变了这一局面,它将界面皮肤化作为框架的重…

作者头像 李华
网站建设 2026/6/5 5:42:51

27、WPF性能优化与控件自动化全解析

WPF性能优化与控件自动化全解析 1. WPF性能优化 在WPF应用开发中,性能优化是一个关键的环节,它涉及到多个方面,包括硬件特性、网格处理、性能测量工具的使用以及提升用户感知响应性的方法。 1.1 硬件与网格处理 命中测试特性 :在硬件层面,命中测试功能是基于软件实现…

作者头像 李华
网站建设 2026/6/5 9:18:19

CCS20环境下C5000中断系统配置实战

CCS20环境下C5000中断系统配置实战:从原理到调试的完整指南在嵌入式数字信号处理领域,TI的C5000系列DSP因其低功耗、高实时性与成熟生态,长期占据工业控制、音频采集和通信设备的核心位置。而随着开发工具链的演进,越来越多项目正…

作者头像 李华
网站建设 2026/6/5 10:45:07

GPT-SoVITS模型AB测试框架:科学评估不同版本语音质量

GPT-SoVITS模型AB测试框架:科学评估不同版本语音质量 在个性化语音合成技术飞速发展的今天,我们已经可以从几分钟的录音中“克隆”出一个高度拟真的声音。GPT-SoVITS 这类少样本语音克隆系统让这一过程变得前所未有的高效和可及。但随之而来的问题是&…

作者头像 李华