无需代码!Fish-Speech 1.5图形界面快速入门指南
1. 开门见山:三分钟上手,语音合成原来这么简单
你是不是也遇到过这些场景?
想给短视频配个自然的人声旁白,却卡在复杂的命令行里;
想用自己声音生成AI语音,但面对一堆参数不知从哪调起;
或者只是临时需要一段朗读音频,结果折腾半小时还没跑通环境……
别再被“安装”“配置”“编译”吓退了。
Fish-Speech 1.5 的 WebUI 图形界面,就是为这类真实需求而生的——它不强制你写一行代码,不考验你对音素、声学建模的理解,甚至不需要你记住任何命令。只要你会打字、会点鼠标,就能立刻生成高质量语音。
这不是简化版的“玩具模型”,而是基于 DualAR 架构(双自回归 Transformer)的成熟 TTS 系统:主模型以 21Hz 高效运行,副模型精准还原声学细节,效果远超传统级联方案。更关键的是,它彻底跳过了音素转换环节,直接“读懂”中文文本,泛化强、容错高、上手零门槛。
本文专为第一次接触 Fish-Speech 的用户而写。不讲原理推导,不列技术参数表,只聚焦一件事:
怎么打开界面
怎么输入文字
怎么选音色
怎么拿到能直接用的音频文件
遇到常见小问题怎么秒解
全程图文逻辑清晰,每一步都对应一个真实操作动作。读完,你就能独立完成一次完整语音生成。
2. 准备工作:两步到位,连IP都不用记
2.1 访问你的专属WebUI
镜像已预装并自动启动,你只需做一件事:
在浏览器地址栏输入这个地址(把服务器IP换成你实际获得的IP):
http://服务器IP:7860注意:不是
https,是http;端口号固定为7860,不要改。
如果页面正常加载,你会看到一个简洁的中文界面,顶部有「Fish Speech 1.5」Logo,中间是几个功能区卡片——恭喜,你已经站在了语音生成的起点。
小贴士:如果你用的是云服务器(如阿里云、腾讯云),请确认安全组已放行
7860端口;本地部署则无需额外设置。
2.2 界面初识:五个区域,一眼看懂功能布局
整个界面按使用动线自然分层,我们用最直白的语言说明每个区域是干什么的:
- 顶部状态栏:显示当前模型版本(v1.5.0)、设备类型(如
cuda表示正在用GPU加速)、以及一句重要提示:「使用时务必等待实时规范化文本同步完成再点 生成音频」——这句话很关键,后面会详解。 - 左侧输入区:核心操作区,包含「输入文本」大文本框、「上传参考音频」按钮、「参考文本」输入框,以及「高级参数」折叠面板。
- 中间控制区:一个醒目的绿色按钮「🎧 生成」,点击即触发合成;下方是「播放」和「下载」按钮,生成后才可用。
- 右侧预览区:实时显示音频波形图,生成完成后可拖动进度条试听;下方标注音频时长、采样率等基本信息。
- 底部日志区:灰色小字区域,显示后台处理过程(如“正在规范化文本…”“正在生成语音…”),是判断是否卡住的重要依据。
不用死记硬背,记住一句话就够了:文字输左边,点中间按钮,听右边声音。
3. 第一次生成:从输入到播放,手把手走通全流程
3.1 最简操作:纯文本合成(无参考音色)
这是最快看到效果的方式,适合测试基础功能或生成通用播报语音。
操作步骤:
在「输入文本」框中,输入一段不超过 200 字的中文(建议先用这句试试):
“欢迎使用 Fish-Speech 1.5,这是一个高质量的开源语音合成系统。”
耐心等待:观察顶部状态栏和底部日志区。你会看到类似这样的提示:
「正在规范化文本…」→「文本规范化完成」→「开始生成语音…」
关键提醒:必须等到「文本规范化完成」出现后,才能点击「🎧 生成」。这是模型内部必需的预处理步骤,跳过会导致生成失败或杂音。
文本规范化完成后,点击绿色「🎧 生成」按钮。
等待约 3–8 秒(取决于文本长度和GPU性能),右侧波形图会动态绘制完成,同时出现「播放」和「下载」按钮。
点击「播放」按钮,直接在浏览器里听效果;点击「下载」,保存为
.wav文件到本地。
成功标志:听到清晰、自然、无明显断句或机械感的中文语音。
3.2 进阶体验:用你的声音生成AI语音(零样本克隆)
这才是 Fish-Speech 1.5 最惊艳的能力——只需一段 5–10 秒的录音,就能复刻你的音色、语调甚至轻微的语气习惯。
你需要准备:
- 一段干净的录音(手机自带录音机即可)
- 录音内容对应的准确文字(不能有错别字,也不能多字少字)
操作步骤:
- 点击「上传参考音频」按钮,选择你的音频文件(支持
.wav、.mp3、.flac) - 在「参考文本」框中,一字不差地输入录音里说的内容。例如,如果你录的是“今天天气真好”,这里就填“今天天气真好”。
- 回到「输入文本」框,输入你想让AI用你声音说的新内容(比如:“明天会议定在下午三点,请准时参加。”)
- 确认顶部显示「文本规范化完成」,点击「🎧 生成」。
实测小技巧:
- 参考音频越安静、人声越突出,克隆效果越好;避免背景音乐或多人说话。
- 如果第一次效果不够理想,可以微调「温度」参数(见下节),降到
0.6会让语音更稳定、更贴近参考音色。
4. 参数调优指南:三个最常用选项,小白也能调出好效果
WebUI 提供了多个高级参数,但绝大多数用户,真正需要关注的只有三个。它们就像相机的“光圈、快门、ISO”,控制着语音的“稳定性、多样性、流畅度”。
4.1 温度(Temperature):控制语音的“个性程度”
- 默认值:0.7
- 推荐范围:0.5–0.8
- 怎么选?
- 想要最稳、最像真人朗读(适合新闻播报、客服语音)→ 选
0.5或0.6 - 想要带点情绪、略带起伏(适合有声书、短视频旁白)→ 保持
0.7 - 想要更活泼、更有创意感(适合儿童故事、趣味解说)→ 试
0.8
- 想要最稳、最像真人朗读(适合新闻播报、客服语音)→ 选
原理一句话:温度越低,模型越“保守”,输出越接近训练数据中的常见表达;温度越高,越“敢发挥”,但也可能出错。
4.2 Top-P(核采样):控制语音的“用词丰富度”
- 默认值:0.7
- 推荐范围:0.65–0.85
- 怎么选?
- 想让AI用词更精准、更书面化(如公文、报告)→ 选
0.65 - 想让AI表达更自然、更口语化(如聊天、讲解)→ 选
0.75 - 想尝试更多样化的句式和词汇→ 试
0.8
- 想让AI用词更精准、更书面化(如公文、报告)→ 选
类比理解:Top-P 就像给AI划了一个“词汇候选池”,数值越大,池子越宽,AI可选的词越多。
4.3 重复惩罚(Repetition Penalty):防止AI“车轱辘话”
- 默认值:1.2
- 推荐范围:1.2–1.4
- 什么时候调?
如果你发现生成的语音里反复出现同一个词(比如“这个这个这个…”“然后然后然后…”),就把这个值提高到1.3或1.4。
它的作用是告诉模型:“刚说过的话,这次尽量换种说法。”
小结一张表,下次调参直接对照:
| 场景 | 温度 | Top-P | 重复惩罚 |
|---|---|---|---|
| 新闻播报、正式汇报 | 0.5–0.6 | 0.65–0.7 | 1.2–1.3 |
| 有声书、知识讲解 | 0.6–0.7 | 0.7–0.75 | 1.2–1.3 |
| 短视频旁白、趣味配音 | 0.7–0.8 | 0.75–0.85 | 1.2 |
5. 常见问题速查:90%的问题,三步就能解决
5.1 点了“生成”,但一直没反应,日志卡在“正在规范化文本…”
解决方案:
- 检查「输入文本」是否为空或全是空格;
- 检查是否含不可见字符(如从微信/网页复制的文字常带隐藏格式),建议粘贴到记事本再复制一次;
- 最关键:确认你没有在“文本规范化完成”前就点击了生成按钮。请耐心等待提示出现。
5.2 生成的语音有杂音、断句奇怪、或者突然静音
解决方案:
- 优先检查「参考文本」是否与上传的音频完全一致(逐字核对);
- 尝试降低「温度」至
0.6,关闭「chunk_length」(设为0); - 如果用的是长文本(超过 150 字),建议手动拆分成两句,分两次生成。
5.3 播放按钮是灰色的,无法点击
解决方案:
这表示生成尚未完成。请看右侧波形图是否已绘制完毕,或查看底部日志是否有“生成完成”字样。如果长时间无响应,可刷新页面重试。
5.4 想换回英文界面,或者切换其他语言
解决方案:
- 打开服务器终端(SSH登录);
- 执行命令修改语言配置:
echo "en_US" > /root/fish-speech-1.5/.locale - 重启 WebUI:
中文、日文、韩文同理,把supervisorctl restart fish-speech-webuien_US换成zh_CN、ja_JP、ko_KR即可。
6. 超实用小技巧:让效率翻倍的5个细节
6.1 快速清空重来:Ctrl+A 全选 → Delete 键
不用一次次手动删文字,也不用关页面重开。在「输入文本」框内按Ctrl+A(Mac 是Cmd+A),再按Delete,瞬间清爽。
6.2 批量生成不求人:复制粘贴+分段处理
虽然 WebUI 是单次生成,但你可以:
- 把一篇长文章按段落粘贴进文本框;
- 每生成一段,立即点击「下载」并重命名(如
intro.wav,section1.wav); - 全部生成完后,用免费工具(如 Audacity)一键合并。
6.3 音频质量再提升:下载后转码为 MP3
WebUI 默认输出.wav(无损,体积大)。如需发微信、传网盘,可用在线工具(如 cloudconvert.com)或本地软件,将.wav转为.mp3(128kbps 足够清晰,体积缩小 80%)。
6.4 保存常用设置:截图+备注
如果你找到了一组特别满意的参数组合(比如温度=0.6、Top-P=0.7、重复惩罚=1.3),建议截一张图,存在手机相册里。下次直接照着调,省去反复试错时间。
6.5 服务异常?一键重启最有效
如果界面打不开、按钮失灵、或日志报错,别急着查文档。先执行这条命令:
supervisorctl restart fish-speech-webui90% 的临时性故障,重启后立刻恢复。
7. 总结:你已经掌握了企业级TTS的核心能力
回顾一下,你刚刚完成了这些事:
✔ 在浏览器里打开了专业级语音合成界面,没碰任何命令行;
✔ 输入一段文字,3秒内就听到了自然流畅的AI语音;
✔ 上传了一段自己的录音,让AI学会了你的声音;
✔ 学会了调节三个关键参数,让语音更贴合你的使用场景;
✔ 掌握了5个高频问题的秒解方法,不再被小故障卡住。
这背后,是 Fish-Speech 1.5 真正的价值:它把前沿的 DualAR 架构、VQ-GAN 声码器、LLAMA 语言建模,全部封装成了一个“所见即所得”的交互体验。你不需要成为语音工程师,也能享受顶尖 TTS 技术带来的生产力提升。
下一步,你可以:
→ 尝试用不同方言文本(如粤语、四川话)测试泛化能力;
→ 把生成的音频导入剪映、Premiere,做你的专属配音流水线;
→ 和同事分享这个链接,让整个团队告别“找配音、等录音、反复返工”的旧流程。
技术的意义,从来不是让人仰望,而是让人轻松上手、立刻受益。你现在,已经做到了。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。