问题分类
所属模块:ComfyUI → TTS Audio Suite → Qwen3-TTS Engine
环境:Windows,ComfyUI-aki v1.3,Python 3.10,PyTorch 2.5.1+cu124,Transformers 5.12.1(主环境)
模型:Qwen3-TTS-12Hz-1.7B-Base
触发场景:使用 SRT workflow 进行语音克隆生成时,worker 子进程反复崩溃 / 输出静音
如遇到这个问题:直接把我这篇文章喂给AI,去解决,速度快!如果你程序员,可以按照思路尝试解决,培养自己解决问题的能力!
现象链条
- 初期:点击生成后 worker 子进程直接退出,ComfyUI 节点报错。
- 中期:删除错误补丁、默认 eager attention 后不再崩溃,能生成出
ComfyUI_00078_.flac,但文件实际为全 0 波形(min/max/mean = 0.0),没有声音。 - 后期:修复隔离运行时 transformers 版本、补齐解码器 API 兼容后,生成恢复正常。_
根因分析(多层)
根因 1:隔离运行时实际使用了错误的主环境 transformers 5.x
Qwen3-TTS 默认走 Shared Runtime(vibevoice_transformers4_shared),该运行时本应安装 transformers 4.x。但实际该 venv 中没有安装 transformers,导致通过 .pth 继承到了主环境的 transformers 5.12.1。
结果:一套为 transformers 4.x 编写的 Qwen3-TTS 代码被迫在 5.x 下运行。