news 2026/6/14 5:52:11

SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

SoulX-Podcast 本地部署与WebUI体验教程(支持方言播客生成)

关键词:SoulX-Podcast、AI播客生成、TTS、多说话人对话、方言支持、Gradio WebUI

一、项目简介

SoulX-Podcast 是 Soul AI Lab 团队开源的一个高保真播客生成推理代码库,专为从文本生成逼真的长篇播客设计。它支持多轮多说话人对话式语音生成,同时在传统单人 TTS 任务上也表现出色。

核心亮点:

  • 支持长达90分钟以上的连续对话生成,声音稳定、切换自然。
  • 支持旁白语言控制(笑声、叹气、呼吸等),极大提升真实感。
  • 支持中英双语+中文方言(四川话、河南话、粤语)。
  • 零样本跨方言声音克隆:用普通话参考音频即可生成对应方言的克隆声音。
  • 基于 Qwen3-1.7B 大模型,参数量约1.7B。

官方仓库:https://github.com/Soul-AILab/SoulX-Podcast
在线Demo:https://soul-ailab.github.io/soulx-podcast/
模型下载:Hugging Face 或 ModelScope

本文基于用户实际部署经验,详细介绍本地部署 + Gradio WebUI 启动的全过程,尤其适合在云服务器(如云GPU平台)上运行,并实现公网访问。

二、环境准备

推荐使用 Python 3.10 或 3.11 环境。项目依赖较多,建议使用虚拟环境。

https://modelscope.cn/my/mynotebook/preset

1. 克隆仓库

gitclone https://github.com/Soul-AILab/SoulX-PodcastcdSoulX-Podcast

2. 创建虚拟环境(推荐)

# 如果系统没有 Python 3.10,可先安装sudoaptupdatesudoaptinstall-y python3.10 python3.10-venv# 创建并激活虚拟环境python3.10 -m venv .venvsource.venv/bin/activate

3. 安装依赖

pipinstall-r requirements.txt

注意:如果网络慢或在国内,可添加国内镜像:

pipinstall-r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

三、模型下载

项目提供两个模型:

  • 基础模型:SoulX-Podcast-1.7B(支持中英)
  • 方言模型:SoulX-Podcast-1.7B-dialect(额外支持四川话、河南话、粤语)

方法一:使用 ModelScope(国内更快)

frommodelscopeimportsnapshot_download# 基础模型snapshot_download("Soul-AILab/SoulX-Podcast-1.7B",local_dir="pretrained_models/SoulX-Podcast-1.7B")# 方言模型(推荐用于播客体验)snapshot_download("Soul-AILab/SoulX-Podcast-1.7B-dialect",local_dir="pretrained_models/SoulX-Podcast-1.7B-dialect")

方法二:使用 Hugging Face CLI(官方推荐)

pipinstall-U huggingface_hub huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B --local-dir pretrained_models/SoulX-Podcast-1.7B huggingface-cli download --resume-download Soul-AILab/SoulX-Podcast-1.7B-dialect --local-dir pretrained_models/SoulX-Podcast-1.7B-dialect

模型较大(约10GB+),建议在良好网络环境下下载,支持断点续传。

四、启动 Gradio WebUI

项目内置webui.py使用 Gradio 实现可视化界面,非常方便。

基本启动(本地访问)

# 使用方言模型(推荐)python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

默认会在 http://127.0.0.1:7860 启动。

云服务器公网访问配置

如果在云服务器(如 RunPod、AutoDL、Vast.ai 等)部署,需要对外开放端口并支持分享链接。

步骤1:修改 webui.py 中的 launch 参数

打开webui.py,找到类似以下代码行:

page.launch(share=False,server_name="0.0.0.0",server_port=args.port)

修改为:

page.launch(share=True,server_name="0.0.0.0",server_port=7860)# 或你指定的端口
  • server_name="0.0.0.0":监听所有IP,实现外网访问。
  • share=True:生成 Gradio 公网链接(需联网)。
步骤2:frpc 内网穿透(可选,更稳定)

如果平台不支持直接公网端口,可使用 frpc。

# 下载 frpc(Linux amd64)wgethttps://cdn-media.huggingface.co/frpc-gradio-0.3/frpc_linux_amd64# 复制到 Gradio 缓存目录mkdir-p /root/.cache/huggingface/gradio/frpc/cpfrpc_linux_amd64 /root/.cache/huggingface/gradio/frpc/frpc_linux_amd64_v0.3

然后再次运行:

python webui.py --model_path pretrained_models/SoulX-Podcast-1.7B-dialect

启动成功后,会输出类似:

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxxx.gradio.live

五、使用说明

进入 WebUI 后:

  1. 上传参考音频(用于声音克隆)。
  2. 输入对话脚本(支持多说话人格式,如 Speaker1: xxx)。
  3. 选择语言/方言、添加旁白标签(如<|laughter|>)。
  4. 点击生成,即可得到高质量播客音频。

提示

  • 方言生成必须使用-dialect模型。
  • 长对话建议分段生成,避免显存溢出。
  • 支持零样本克隆:只需几秒参考音频。

六、常见问题排查

  • 显存不足:1.7B 模型在 24GB GPU 上可流畅运行,长对话可降低 batch。
  • 依赖报错:确保在虚拟环境中安装 requirements。
  • 无声音输出:检查模型路径是否正确。
  • Gradio 分享失败:检查网络,或使用 frpc。

七、总结

SoulX-Podcast 是目前开源领域最强的多说话人长篇播客生成模型之一,尤其在方言和情感表达上领先。通过上述步骤,你可以在本地或云端快速搭建属于自己的 AI 播客生成器,轻松制作双人/多人对话节目。

感兴趣的朋友快去试试吧!欢迎在评论区分享你的生成效果~

参考资料

  • 官方 GitHub:https://github.com/Soul-AILab/SoulX-Podcast
  • Demo 页面:https://soul-ailab.github.io/soulx-podcast/
  • 论文:https://arxiv.org/abs/2510.23541

(完)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 16:24:56

企业落地 ChatBI,如何构建可信可靠的数据底座?

在企业 ChatBI 落地过程中&#xff0c;数据底座的技术路线选择直接决定了数据可信度、维护成本和业务响应速度。传统宽表架构在数据口径一致性、维护成本和灵活性上已难以支撑企业级 ChatBI 的规模化应用&#xff0c;而基于 NoETL 明细语义层的方案正成为新一代数据底座的主流选…

作者头像 李华
网站建设 2026/6/12 21:24:09

超详细逻辑回归解说

逻辑回归是用来做“分类”的模型&#xff08;比如判断“是不是垃圾邮件”“病人有没有患病”“用户会不会点击广告”&#xff09;&#xff0c;而非回归。它的核心是&#xff1a;用“概率”的方式&#xff0c;把线性回归的输出&#xff08;连续值&#xff09;转化为“是/否”的分…

作者头像 李华
网站建设 2026/6/12 15:33:54

基于springboot的美食分享平台网站设计实现

技术背景SpringBoot作为Java生态中广泛使用的框架&#xff0c;简化了传统Spring应用的配置和部署流程。其自动配置、内嵌服务器和依赖管理特性&#xff0c;使得开发者能快速构建高可用的Web应用。在美食分享平台场景中&#xff0c;SpringBoot的高效开发模式适合处理用户生成内容…

作者头像 李华
网站建设 2026/6/13 2:07:53

BMI270,高性能高性价比的运动传感器, 现货库存

BMI270 是一款高性能、低功耗的 6 轴惯性测量单元 (IMU)&#xff0c;集成了高精度三轴加速度计和陀螺仪&#xff0c;并具备智能运动触发中断功能&#xff0c;为各种高性能应用提供了可靠且经济的解决方案。高性能特点 高精度传感器&#xff1a; BMI270 的加速度计和陀螺仪均具有…

作者头像 李华
网站建设 2026/6/13 13:10:02

信息安全的核心支柱:深入解析网络安全技术体系与实践

一、网络安全基础 OSI参考模型与TCP/IP开放模型对比 应用层 应用层 TehnetHTTPSMTPFTP DNSTFTPSSH 表示层 会话层 传输层 传输层 TCPUDP网络层 网络层 IP协议簇&#xff08;RIP、OSPF、SNMP、ICMP&#xff09; 数据链路层 物理和数据链路层 以太网 令牌…

作者头像 李华
网站建设 2026/6/14 0:38:35

在claude code中使用glm模型出现Unable to connect to Anthropic services的解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

作者头像 李华