news 2026/6/9 21:21:48

基于昇腾910B的文生图模型推理服务化部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于昇腾910B的文生图模型推理服务化部署

本次部署模型Qwen-Image。

1. vllm-Omni

vLLM 最初是为了支持文本自动回归生成任务的大型语言模型而设计的。vLLM-Omni 是一个框架,它扩展了对全模态模型推理和服务的支持

  • 全模态:文本、图像、视频和音频数据处理
  • 非自回归架构:将 vLLM 的 AR 支持扩展到 Diffusion Transformers (DiT) 和其他并行生成模型
  • 异构输出:从传统的文本生成到多模态输出

2.环境准备

vllm环境准备

使用vllm-ascend镜像,本例使用

quay.io/ascend/vllm-ascend:v0.12.0rc1-openeuler

镜像下载地址:Quay

vllm-omni环境准备

github上下载vllm-omni代码仓库

git clone https://github.com/vllm-project/vllm-omni.git cd vllm-omni pip install -e -v . 。。。 Successfully installed accelerate-1.12.0 aiofiles-24.1.0 antlr4-python3-runtime-4.9.3 brotli-1.2.0 cache-dit-1.1.8 diffusers-0.36.0 ffmpy-1.0.0 gradio-5.50.0 gradio-client-1.14.0 groovy-0.1.2 importlib_metadata-8.7.1 omegaconf-2.3.0 orjson-3.11.5 pillow-11.3.0 pydantic-2.12.3 pydantic-core-2.41.4 pydub-0.25.1 resampy-0.4.3 ruff-0.14.10 safehttpx-0.1.7 semantic-version-2.10.0 tomlkit-0.13.3 vllm-omni-0.12.0rc1 zipp-3.23.0

安装成功版本查看

vllm 0.12.0+empty /vllm-workspace/vllm vllm_ascend 0.12.0rc1 /vllm-workspace/vllm-ascend vllm-omni 0.12.0rc1

模型下载

Qwen-Image · 模型库

3.服务启动

2.1 启动vllm 模型推理服务

export ASCEND_RT_VISIBLE_DEVICES=0,1 export VLLM_WORKER_MULTIPROC_METHOD=spawn vllm serve /opt/models/Qwen-Image/ --omni --port 10027 ... Loading safetensors checkpoint shards: 100% Completed | 9/9 [01:01<00:00, 7.35s/it] Loading safetensors checkpoint shards: 100% Completed | 9/9 [01:01<00:00, 6.85s/it] [Stage-0] INFO 12-29 15:15:08 [diffusers_loader.py:214] Loading weights took 61.97 seconds [Stage-0] INFO 12-29 15:15:09 [npu_worker.py:79] Model loading took 53.7445 GiB and 91.143213 seconds [Stage-0] INFO 12-29 15:15:09 [npu_worker.py:84] Worker 0: Model loaded successfully. [Stage-0] INFO 12-29 15:15:09 [npu_worker.py:118] Worker 0: Scheduler loop started. [Stage-0] INFO 12-29 15:15:09 [gpu_worker.py:229] Worker 0 ready to receive requests via shared memory [Stage-0] INFO 12-29 15:15:09 [scheduler.py:46] SyncScheduler initialized result MessageQueue [Stage-0] INFO 12-29 15:15:09 [async_omni_diffusion.py:83] 。。。 INFO: Started server process [1118] (APIServer pid=1118) INFO: Waiting for application startup. (APIServer pid=1118) INFO: Application startup complete.

服务测试:

测试脚本 openai_chat_t2i.py

​ python openai_chat_t2i.py \ --prompt "A beautiful landscape painting" \ --output output.png \ --server http://127.0.0.1:10027 \ --seed 21 \ --height 224--width 224 ​

2.2 启动图形界面服务

​ python gradio_demo.py --server http://127.0.0.1:10027 --port 10029 ​

使用浏览器打开界面:

http://127.0.0.1:10029

4.加速方法

3.1 TeaCache

vllm serve /opt/models/Qwen-Image/ --omni --port 10027 \ --cache-backend tea_cache \ --cache-config '{"rel_l1_thresh": 0.2}'

3.2 Cache-DiT

vllm serve /opt/models/Qwen-Image/ --omni --port 10027 \ --cache-backend cache_dit \ --cache-config '{"Fn_compute_blocks": 1, "Bn_compute_blocks": 0, "max_warmup_steps": 4, "residual_diff_threshold": 0.12}'

3.3 效果对比

prompt='生成一个ultraman', ref_images=0, params={'height': 384, 'width': 512, 'num_inference_steps': 10, 'true_cfg_scale': 4, 'num_outputs_per_prompt': 1

部署方式

e2e

时延倍率

baseline

8995

1

TeaCache

8394

0.933

Cache-Dit

8688

0.966

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 14:44:30

skynet源码学习-clusteragent.lua

skynet源码学习-clusteragent.lua 一、文件概述 二、模块依赖和初始化 2.1 模块引入 2.2 启动参数处理 三、全局变量和状态管理 3.1 large_request - 大请求分片缓存 3.2 inquery_name - 名称查询等待队列 3.3 register_name_mt - 名称缓存元表 3.4 new_register_name 函数 3.5…

作者头像 李华
网站建设 2026/6/9 21:01:44

Rime-AI v2版本发布

AI-Rime 基于Rime的lua脚本系统打造AI增强输入法Rime AI 纠错 v1 智能纠错 功能说明 极简版 AI 纠错功能&#xff1a; 按 6 触发纠错&#xff0c;显示"AI纠正中..."再按 6 显示纠正结果 文件清单 文件说明ai_corrector_processor.lua按键监听&#xff08;放入 lua/ 目…

作者头像 李华
网站建设 2026/6/5 19:36:17

python基于Vue的减肥体脂健康运动健身器材管理系统的设计与实现_5m179_django Flask pycharm项目

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的减肥体脂健康运动健身…

作者头像 李华
网站建设 2026/6/9 21:10:09

python基于Vue的民宿客房预约管理系统的设计与实现_16605_django Flask pycharm项目

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的民宿客房预约管理系统…

作者头像 李华
网站建设 2026/6/9 6:09:51

python基于Vue的美食分享系统设计与实现_i21mn_django Flask pycharm项目

目录已开发项目效果实现截图关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;已开发项目效果实现截图 同行可拿货,招校园代理 ,本人源头供货商 python基于Vue的美食分享系统设计与实…

作者头像 李华
网站建设 2026/6/9 19:49:11

Go context详解:超时控制与请求链路追踪

刚写Go那会&#xff0c;context对我来说就是个"到处传的参数"&#xff0c;函数签名里写上但也不知道有什么用。 后来线上出了几次问题才明白&#xff1a;context是Go并发控制的灵魂。 context解决什么问题 想象一个场景&#xff1a;用户请求进来&#xff0c;你要调…

作者头像 李华