Qwen3-TTS-VoiceDesign保姆级教程：Gradio界面源码修改——增加语速/音高滑块控件方法-洪萨配资

Qwen3-TTS-VoiceDesign保姆级教程：Gradio界面源码修改——增加语速/音高滑块控件方法

1. 项目概述

Qwen3-TTS是一个强大的端到端语音合成模型，支持10种主流语言（中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语）。VoiceDesign版本特别之处在于可以通过自然语言描述生成特定风格的语音，比如"温柔的成年女性声音"或"活泼的青少年男声"。

2. 准备工作

2.1 环境确认

在开始修改前，请确保你已经：

成功部署了Qwen3-TTS-12Hz-1.7B-VoiceDesign镜像
能够正常访问Gradio界面（默认地址：http://localhost:7860）
安装了必要的Python开发环境（Python 3.11+）

2.2 定位源码文件

Gradio界面源码通常位于：

/root/Qwen3-TTS-12Hz-1.7B-VoiceDesign/app.py

或者

/root/Qwen3-TTS-12Hz-1.7B-VoiceDesign/demo.py

3. 修改Gradio界面

3.1 添加语速控制滑块

打开源码文件，找到定义Gradio界面的部分（通常以gr.Interface或gr.Blocks开头），添加以下代码：

# 在输入组件定义部分添加 speed_slider = gr.Slider( minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="语速控制", info="0.5为慢速，1.0为正常，2.0为快速" )

3.2 添加音高控制滑块

在相同位置继续添加音高控制：

pitch_slider = gr.Slider( minimum=-12, maximum=12, value=0, step=1, label="音高调节", info="-12为降八度，0为原调，+12为升八度" )

3.3 修改生成函数

找到语音生成函数（通常名为generate_voice或类似名称），修改参数接收：

def generate_voice(text, language, voice_desc, speed=1.0, pitch=0): # 原有代码... # 修改生成调用，添加speed和pitch参数 wavs, sr = model.generate_voice_design( text=text, language=language, instruct=voice_desc, speed=speed, pitch=pitch ) return wavs, sr

4. 更新界面布局

4.1 重新排列输入组件

调整界面布局，将新控件整合到输入区域：

with gr.Blocks() as demo: with gr.Row(): with gr.Column(): text_input = gr.Textbox(label="输入文本") language_dropdown = gr.Dropdown( choices=["Chinese", "English", "Japanese", "Korean", "German", "French", "Russian", "Portuguese", "Spanish", "Italian"], label="选择语言" ) voice_desc = gr.Textbox(label="声音描述") speed_slider = gr.Slider(...) # 之前定义的滑块 pitch_slider = gr.Slider(...) # 之前定义的滑块 submit_btn = gr.Button("生成语音") with gr.Column(): audio_output = gr.Audio(label="生成结果") # 其他输出组件...

4.2 连接组件与函数

确保将新控件连接到生成函数：

submit_btn.click( fn=generate_voice, inputs=[text_input, language_dropdown, voice_desc, speed_slider, pitch_slider], outputs=[audio_output] )

5. 测试修改

5.1 重启服务

保存修改后，重启Gradio服务：

# 如果使用启动脚本 ./start_demo.sh # 或者手动重启 pkill -f qwen-tts-demo qwen-tts-demo /root/ai-models/Qwen/Qwen3-TTS-12Hz-1___7B-VoiceDesign --port 7860

5.2 验证功能

访问Web界面，你应该能看到新增的滑块控件。尝试以下测试：

保持语速1.0、音高0，生成基准语音
将语速调至0.5，听慢速效果
将语速调至2.0，听快速效果
调整音高至+6，听高音效果
调整音高至-6，听低音效果

6. 进阶优化

6.1 添加预设按钮

可以添加几个常用预设，方便快速选择：

def set_slow_speed(): return 0.7, 0 def set_fast_speed(): return 1.5, 0 def set_high_pitch(): return 1.0, 6 with gr.Blocks() as demo: # ...之前的内容... with gr.Row(): slow_btn = gr.Button("慢速模式") fast_btn = gr.Button("快速模式") high_btn = gr.Button("高音模式") slow_btn.click(fn=set_slow_speed, outputs=[speed_slider, pitch_slider]) fast_btn.click(fn=set_fast_speed, outputs=[speed_slider, pitch_slider]) high_btn.click(fn=set_high_pitch, outputs=[speed_slider, pitch_slider])

6.2 保存用户偏好

使用Gradio的State保存用户设置：

def save_preferences(speed, pitch): return {"speed": speed, "pitch": pitch} def load_preferences(state): return state.get("speed", 1.0), state.get("pitch", 0) with gr.Blocks() as demo: state = gr.State({}) # 在生成函数中添加state更新 def generate_voice(text, language, voice_desc, speed, pitch, state): state = save_preferences(speed, pitch) # ...原有生成逻辑... return wavs, sr, state # 页面加载时恢复设置 demo.load( fn=load_preferences, inputs=[state], outputs=[speed_slider, pitch_slider] )