零基础也能用!HeyGem WebUI版数字人视频快速入门指南
你是不是也想过——不用请专业演员、不租演播室、不学剪辑软件,就能做出一条口型自然、表情生动的数字人短视频?比如给课程配个虚拟讲师,给产品介绍加个AI代言人,甚至让老照片里的人“开口说话”?
现在,真的可以了。
HeyGem 数字人视频生成系统 WebUI 版,就是为普通人准备的那把“数字人钥匙”。它不烧显卡、不写代码、不调参数,打开浏览器点几下,音频+人脸视频→口型同步的数字人视频,10分钟内搞定。
本文不是给工程师看的部署文档,而是专为第一次接触数字人技术的小白用户写的实操指南。全程无需安装任何软件(除了浏览器),不需要懂AI原理,连“模型”“推理”“权重”这些词都可以跳过——我们只讲:你该点哪里、传什么文件、等多久、结果在哪找、怎么用得更顺手。
下面我们就从零开始,带你完整走通一次数字人视频生成流程。
1. 第一步:启动系统,打开你的数字人工作室
HeyGem 是一个本地运行的 Web 应用,所有操作都在浏览器里完成。你不需要联网访问云端服务,也不用注册账号,数据完全留在你自己的机器上。
1.1 启动服务(只需一行命令)
在服务器或本地电脑(Linux/macOS 推荐)中,进入 HeyGem 项目所在目录,执行:
bash start_app.sh成功标志:终端输出类似Running on http://localhost:7860,且不再报错。
小贴士:如果提示
command not found: bash,说明你可能在 Windows 系统上。建议使用 WSL2(Windows Subsystem for Linux)运行;若坚持用 Windows 命令行,请确认已安装 Git Bash 或 PowerShell,并将脚本中的#!/bin/bash改为#!/usr/bin/env bash后重试。
1.2 打开 Web 界面
启动成功后,在任意现代浏览器(Chrome、Edge、Firefox 均可)中输入地址:
http://localhost:7860如果你是在远程服务器(如云主机)上运行,把localhost换成服务器的公网 IP,例如:
http://123.45.67.89:7860页面加载完成后,你会看到一个干净的中文界面,顶部有两大标签:“批量处理”和“单个处理”。
注意:首次打开可能需要 10–30 秒(模型加载阶段),请耐心等待。页面右上角无报错提示、底部无红色错误日志即为正常。
1.3 查看运行状态(遇到问题时必看)
系统会把所有操作日志实时写入文件:
/root/workspace/运行实时日志.log想确认是否真在跑?或者生成失败了但没提示?打开终端执行:
tail -f /root/workspace/运行实时日志.log你会看到类似这样的实时输出:
[INFO] 正在加载语音模型... [INFO] 视频处理队列已初始化 [INFO] 批量任务开始:audio_001.mp3 + video_001.mp4这就像系统的“心跳监测仪”,比界面更诚实。
2. 第二步:选对模式——先搞清你要做什么
HeyGem 提供两种工作方式,别急着上传文件,先花10秒判断哪种更适合你:
| 场景 | 推荐模式 | 为什么? |
|---|---|---|
| 你有一段产品介绍音频,想让它分别配上3位不同数字人的形象(比如男声+女声+卡通形象) | 批量处理模式 | 一次上传音频+多个视频,自动并行生成,省时省力 |
| 你刚录了一段口播,只想快速看看效果,不追求多版本 | 单个处理模式 | 界面更简洁,上传+点击=1次操作,3分钟出结果 |
| 你想用同一段客服话术,生成100条不同员工形象的培训视频 | 批量处理模式 | 支持多视频列表管理,一键打包下载,适合内容量产 |
记住一句口诀:“一试用单个,多产用批量”。本文后续以「批量处理模式」为主线讲解(功能更全、更常用),但每一步都会同步说明单个模式对应操作。
3. 第三步:准备文件——不是所有音视频都能用好
HeyGem 的效果好不好,一半取决于模型,另一半取决于你给的“原材料”。这里没有玄学,只有3条清晰、可验证的准备原则:
3.1 音频文件:要“干净”,不要“热闹”
- 推荐:人声清晰的单声道
.wav或.mp3文件(如手机录音、Audacity 导出) - ❌ 避免:
- 背景音乐+人声混在一起的视频配音
- 电话通话录音(失真严重、频段窄)
- 有明显电流声、回响、喷麦的音频
自查小技巧:上传前先在浏览器里点播放按钮听一遍——如果人声听起来像隔着一层毛玻璃,就别用了。重新录30秒试试,效果提升立竿见影。
3.2 视频文件:要“稳”,不要“晃”
- 推荐:正面、静止、光照均匀的人脸视频(720p 或 1080p
.mp4最佳) - ❌ 避免:
- 全身走动、频繁转头的Vlog片段
- 黑暗环境或强逆光拍摄(脸看不清)
- 动态模糊严重的手机慢动作视频
理想示例:用手机支架固定,正对镜头说一段话(无需声音),录制5–10秒。这就是最高效的“数字人底片”。
3.3 文件大小与长度:快≠贪多
- 单个视频建议 ≤ 90 秒(生成时间约 2–5 分钟,视GPU而定)
- 单个音频建议 ≤ 60 秒(口型同步精度更高)
- ❌ 不要上传 10 分钟的长视频——不仅慢,还容易因内存不足中断
实测经验:一段30秒音频 + 一个45秒人脸视频,RTX 3090 上平均耗时 3分12秒,生成视频大小约 12MB(1080p MP4)。
4. 第四步:动手操作——批量处理全流程图解
现在,我们正式进入核心环节。以下步骤按真实操作顺序排列,每一步都标注了界面上你能看到的文字或图标,拒绝“找不着按钮”的焦虑。
4.1 上传音频(一次搞定,反复使用)
- 点击顶部标签页切换到「批量处理」
- 找到左上角区域,标题为“上传音频文件”
- 点击区域内任意位置 → 弹出系统文件选择框
- 选中你准备好的音频(如
product_intro.mp3)→ 点击“打开” - 成功后,区域下方会出现音频名称,并带一个 ▶ 播放按钮,点击可试听
小技巧:上传后可随时换音频——直接再次点击上传区即可覆盖,无需刷新页面。
4.2 添加数字人视频(支持多选,一次加够)
- 往下滚动,找到中间偏左区域,标题为“拖放或点击选择视频文件”
- 方法一(推荐):直接将多个
.mp4文件从电脑文件夹拖入该区域(支持同时拖10个) - 方法二:点击区域 → 多选文件(Windows 按住 Ctrl,macOS 按住 Cmd)→ 点击“打开”
- 成功后,左侧会立刻出现一个视频列表,显示文件名、时长、缩略图(鼠标悬停可放大)
🧩 列表管理说明:
- 点击任一视频名 → 右侧预览区实时播放该视频
- 勾选视频前复选框 → 点击“删除选中”可移除
- 点击“清空列表” → 一键清空全部(慎点)
4.3 开始生成——安静等待,进度可视
- 确认音频已上传、视频已添加完毕后,点击右下角醒目的绿色按钮:“开始批量生成”
- 页面立即变化:
- 顶部出现黄色提示条:“任务已加入队列,正在处理…”
- 中间出现实时进度面板:
▪ 当前处理:video_003.mp4
▪ 进度:2/5
▪ 进度条:动态填充
▪ 状态:正在合成口型…
全程无需人工干预。你可以去倒杯水、回条消息,回来大概率已生成完毕。
4.4 查看与下载结果——所见即所得
生成完成后,页面自动跳转至“生成结果历史”区域(位于页面下半部分):
- 缩略图网格:每个生成视频都有独立缩略图,带播放图标
- 点击任意缩略图 → 右侧大窗口播放高清预览(支持暂停、拖动、全屏)
- 下载单个:点击缩略图选中 → 点击右侧“⬇ 下载当前视频”按钮(图标为向下箭头)
- 批量下载:点击“📦 一键打包下载” → 等待 ZIP 生成 → 点击“点击打包后下载”
文件保存位置说明:所有生成视频实际存储在服务器的
outputs/文件夹中,但你完全不需要登录服务器找文件——WebUI 提供的下载按钮已直连该路径,点一下就到你本地。
5. 第五步:单个处理模式——极简快启方案
如果你只是想“马上试试看”,不想管理列表、不关心批量,那就切到「单个处理」标签页:
- 左侧“上传音频文件” → 传音频(同上)
- 右侧“上传视频文件” → 传人脸视频(同上)
- 点击中间巨大的蓝色按钮:“开始生成”
- 等待进度条走完 → “生成结果”区域直接显示视频预览 + 下载按钮
⏱ 全程耗时通常比批量模式更快(少去列表解析开销),适合:
✔ 快速验证某段音频+视频的适配效果
✔ 临时补一条短视频,不值得建列表
✔ 教同事时演示“最简路径”
6. 第六步:避坑指南——那些没人告诉你但很关键的事
基于上百次实测和用户反馈,我们整理出6个高频卡点及解决方案,帮你绕过90%的“为什么不行”:
| 问题现象 | 常见原因 | 一句话解决 |
|---|---|---|
| 上传后没反应,按钮变灰 | 浏览器禁用了文件读取权限 | Chrome 地址栏点锁形图标 → “网站设置” → “文件访问” → 开启 |
进度条卡在 0%,日志显示CUDA out of memory | 视频分辨率过高或太长 | 换成 720p,裁剪到 60 秒以内;或关闭其他占用 GPU 的程序 |
| 生成视频口型明显不同步 | 音频开头有长时间静音(>0.5秒) | 用 Audacity 删除前 0.3 秒空白,导出再试 |
| 预览黑屏/打不开 | 视频编码格式不兼容(如 HEVC/H.265) | 用免费工具 HandBrake 转码为 H.264 + MP4 容器 |
| 下载 ZIP 解压后视频打不开 | 服务器磁盘满或权限不足 | df -h查磁盘,ls -l outputs/查文件权限,确保www-data或当前用户有写入权 |
点击按钮无响应,F12 控制台报Failed to fetch | WebUI 服务意外中断 | 回终端按Ctrl+C停止,再执行bash start_app.sh重启 |
🛠 终极排查法:打开浏览器开发者工具(F12)→ 切到 Console 标签页 → 复现问题 → 截图红字报错 → 发给科哥(微信 312088415),他能一眼定位是前端、后端还是模型层问题。
7. 总结:你已经掌握了数字人视频生产的最小闭环
回顾这一路,你其实只做了4件极简单的事:
- 敲了一行命令:
bash start_app.sh—— 启动你的AI工作室 - 传了两个文件:一段人声 + 一张人脸视频 —— 给AI“下指令”
- 点了两次按钮:“开始批量生成” → “下载当前视频” —— 执行与交付
- 得到了一个MP4:口型自然、画面稳定、可直接发朋友圈或嵌入课件
这背后当然有复杂的语音驱动、3D人脸建模、时序对齐技术,但 HeyGem 的价值,正在于把这些“复杂”彻底封装起来,只留下最直观的操作接口。
你现在完全可以:
- 给公司产品线批量生成10条不同风格的介绍视频
- 为线上课程制作专属虚拟讲师,统一形象不露脸
- 把老照片修复后做成会说话的纪念短片
- 甚至尝试用方言音频+本地主持人视频,打造区域化数字人
技术的意义,从来不是让人仰望,而是让人伸手就够得着。HeyGem WebUI 版,就是那个“够得着”的支点。
下一步,不妨就从你手机里最近录的一段语音开始——打开 HeyGem,传上去,点生成。3分钟后,看看那个“你”是怎么开口说话的。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。