GLM-TTS一文详解:webUI界面操作全流程图文教程
🎵 零样本语音克隆 · 情感表达 · 音素级控制
webUI二次开发by 科哥 微信:312088415
1. 快速开始
1.1 启动 Web 界面
GLM-TTS 提供了直观的图形化操作界面(webUI),用户可通过浏览器进行语音合成任务。启动前请确保已正确部署项目环境。
方式一:使用启动脚本(推荐)
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 bash start_app.sh方式二:直接运行应用
cd /root/GLM-TTS source /opt/miniconda3/bin/activate torch29 python app.py执行成功后,终端将输出类似以下信息:
Running on local URL: http://127.0.0.1:7860在浏览器中访问http://localhost:7860即可进入 GLM-TTS 的 webUI 操作界面。
⚠️注意:每次启动必须先激活
torch29虚拟环境,否则可能因依赖缺失导致运行失败。
2. 基础语音合成
2.1 功能概述
基础语音合成功能适用于单次文本转语音任务,支持零样本音色克隆、多语言输入与情感迁移,适合快速测试和小规模生成。
2.2 操作流程详解
步骤 1:上传参考音频
- 在「参考音频」区域点击上传按钮或拖拽文件。
- 格式要求:WAV、MP3 等常见音频格式。
- 时长建议:3–10 秒清晰人声。
- 质量提示:避免背景噪音、音乐干扰或多说话人混杂。
系统通过该音频提取音色特征,实现个性化语音克隆。
步骤 2:填写参考文本(可选)
- 在「参考音频对应的文本」框中输入音频内容。
- 若不提供,系统将自动识别(准确率受限于ASR模型性能)。
- 提供准确文本有助于提升音色还原度与发音准确性。
步骤 3:输入目标文本
- 在「要合成的文本」输入框中键入希望生成的内容。
- 支持中文、英文及中英混合语句。
- 建议单次不超过 200 字符,以保证稳定性和生成效率。
示例:
你好,我是来自未来的AI助手,很高兴为你服务。步骤 4:配置高级参数(可选)
点击「⚙️ 高级设置」展开详细选项:
| 参数 | 说明 | 推荐值 |
|---|---|---|
| 采样率 | 决定输出音频质量 | 24000(平衡速度与质量)或 32000(高保真) |
| 随机种子 | 控制生成随机性 | 固定值如42可复现结果 |
| 启用 KV Cache | 显著加速长文本推理 | ✅ 开启 |
| 采样方法 | 影响语调自然度 | ras(随机采样)更生动 |
步骤 5:开始合成
- 点击「🚀 开始合成」按钮。
- 系统加载模型并生成音频,耗时通常为 5–30 秒。
- 完成后音频自动播放,并保存至本地。
2.3 输出文件路径
所有生成的音频默认存储在:
@outputs/tts_YYYYMMDD_HHMMSS.wav命名规则为时间戳,便于区分不同批次任务。
3. 批量推理
3.1 使用场景
批量推理功能专为大规模语音生成设计,适用于有声书制作、客服语音库构建、教学资源生成等需要自动化处理的场景。
3.2 准备任务文件
创建 JSONL 格式文件(每行一个独立任务对象),例如:
{"prompt_text": "这是第一段参考文本", "prompt_audio": "examples/prompt/audio1.wav", "input_text": "要合成的第一段文本", "output_name": "output_001"} {"prompt_text": "这是第二段参考文本", "prompt_audio": "examples/prompt/audio2.wav", "input_text": "要合成的第二段文本", "output_name": "output_002"}字段说明:
prompt_text:参考音频的文字内容(可为空)prompt_audio:音频文件路径(相对或绝对路径均可)input_text:待合成的目标文本output_name:自定义输出文件名(可选,默认按序编号)
✅ 建议将音频统一存放于
examples/prompt/目录下,便于管理。
3.3 执行批量任务
- 切换至「批量推理」标签页。
- 点击「上传 JSONL 文件」选择准备好的任务列表。
- 设置全局参数:
- 采样率:24000 或 32000
- 随机种子:建议固定(如
42) - 输出目录:默认为
@outputs/batch,可修改
- 点击「🚀 开始批量合成」启动任务队列。
系统将逐条处理任务,并实时显示进度与日志信息。
3.4 输出结构
完成后的音频集中保存在指定输出目录中:
@outputs/batch/ ├── output_001.wav ├── output_002.wav └── ...任务结束后会打包生成 ZIP 文件供下载,方便后续集成使用。
4. 高级功能详解
4.1 音素级控制(Phoneme Mode)
功能价值
解决多音字、生僻字误读问题,实现精准发音控制,尤其适用于专业术语、地名、古诗词等特殊场景。
启用方式
通过命令行调用并开启--phoneme参数:
python glmtts_inference.py --data=example_zh --exp_name=_test --use_cache --phoneme自定义发音规则
编辑配置文件configs/G2P_replace_dict.jsonl,添加自定义映射:
{"word": "重庆", "phonemes": ["chóng", "qìng"]} {"word": "银行", "phonemes": ["yín", "háng"]}每行一个词条,系统将在推理时优先匹配这些规则。
💡 修改后需重启服务或重新加载模型才能生效。
4.2 流式推理(Streaming Inference)
核心优势
- 实现低延迟音频流输出
- 支持实时交互式应用(如虚拟主播、电话机器人)
- 提升用户体验流畅性
性能指标
- Token Rate:约 25 tokens/sec(固定速率)
- 数据以 chunk 形式逐步返回,前端可边接收边播放
应用建议
结合 WebSocket 或 SSE 接口实现前后端流式通信,适用于对响应速度敏感的生产系统。
4.3 情感控制机制
工作原理
GLM-TTS 支持基于参考音频的情感迁移。系统自动分析输入音频的情绪特征(如喜悦、悲伤、愤怒、平静等),并在生成过程中复现相似情感风格。
使用技巧
- 选择带有明确情感色彩的参考音频(如朗读诗歌、广告配音)
- 避免情绪波动剧烈的片段
- 对同一角色保持一致的情感基调,增强连贯性
示例:使用一段欢快语气的儿童故事录音作为 prompt,生成的新句子也会带有童趣和活泼感。
5. 使用技巧与最佳实践
5.1 参考音频优化策略
| 类型 | 推荐做法 |
|---|---|
| ✅ 推荐 | 清晰人声、无背景音、单一说话人、3–10秒长度 |
| ❌ 避免 | 背景音乐、多人对话、爆音/削波、过短或过长 |
高质量参考音频是实现高保真克隆的关键因素之一。
5.2 文本输入规范
- 标点符号:合理使用逗号、句号、感叹号等影响语调停顿。
- 分段处理:超过 150 字的长文本建议拆分为多个短句分别合成。
- 中英混合:支持良好,但应避免频繁切换语言造成语调断裂。
5.3 参数调优指南
| 目标 | 推荐配置 |
|---|---|
| 快速测试 | 24kHz + KV Cache + seed=42 |
| 高音质输出 | 32kHz + ras采样 |
| 结果可复现 | 固定随机种子(如 42) |
| 显存紧张 | 使用 24kHz 并定期清理显存 |
6. 常见问题解答
6.1 生成的音频保存在哪里?
答:
- 单次合成:
@outputs/tts_时间戳.wav - 批量任务:
@outputs/batch/自定义名.wav或打包 ZIP 下载
6.2 如何提高音色相似度?
答:
- 使用高质量、清晰的参考音频;
- 准确填写参考文本;
- 推荐音频长度为 5–8 秒;
- 保持情感自然、语速适中。
6.3 支持哪些语言?
答:
- ✅ 中文普通话
- ✅ 英文
- ✅ 中英混合
- ⚠️ 其他语言(如日语、韩语)暂未优化,效果有限
6.4 生成速度慢怎么办?
答:
- 切换为 24kHz 采样率;
- 确保启用 KV Cache;
- 缩短单次合成文本长度;
- 检查 GPU 显存是否充足(建议 ≥12GB)
6.5 如何清理显存?
答:点击界面上的「🧹 清理显存」按钮,系统将释放当前模型占用的 GPU 内存,适用于切换模型或释放资源。
6.6 批量推理失败如何排查?
答:
- 检查 JSONL 文件格式是否合法(每行为独立 JSON 对象);
- 确认所有音频路径存在且可读;
- 查看控制台日志定位具体错误;
- 注意单个任务失败不会中断整体流程。
6.7 音频质量不满意怎么改进?
答:
- 更换参考音频尝试不同音色源;
- 提高采样率至 32kHz;
- 尝试不同随机种子(如 42, 123, 999);
- 检查输入文本是否存在错别字或异常符号。
7. 性能参考与资源消耗
7.1 生成耗时参考
| 文本长度 | 平均耗时 |
|---|---|
| <50 字 | 5–10 秒 |
| 50–150 字 | 15–30 秒 |
| 150–300 字 | 30–60 秒 |
实际耗时受 GPU 型号、文本复杂度、采样率等因素影响。
7.2 显存占用情况
| 模式 | 显存需求 |
|---|---|
| 24kHz | 约 8–10 GB |
| 32kHz | 约 10–12 GB |
建议使用 NVIDIA A10/A100/V100 等高性能 GPU 设备以获得最佳体验。
8. 最佳实践工作流
8.1 推荐操作流程
测试阶段
- 使用短文本快速验证音色效果;
- 尝试多个参考音频对比差异;
- 确定最优参数组合(采样率、种子、采样方法)。
生产准备
- 整理标准化的参考音频库;
- 编写结构化的 JSONL 任务文件;
- 统一命名规则与输出路径。
批量执行
- 使用批量推理功能一次性处理全部任务;
- 记录日志用于后期审计与优化。
质量审核
- 抽样听取生成音频;
- 建立“优质音色模板”档案;
- 持续迭代优化输入素材质量。
9. 技术支持与版权信息
如有技术问题、定制需求或合作意向,请联系开发者:
科哥
微信:312088415
本项目基于开源项目 GLM-TTS 进行二次开发,保留原始协议条款。
webUI 界面由科哥独立开发维护,未经授权不得用于商业用途。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。