想做自媒体数字人访谈视频，在百度 AI Studio 上安装 OpenAvatarChat，显存要求-洪萨配资

想做自媒体数字人访谈视频，在百度 AI Studio 上安装 OpenAvatarChat，显存要求

在百度 AI Studio 上安装 OpenAvatarChat
百度 AI Studio 是免费 GPU 云环境，但有几个坑需要绕过去。下面一步步来。
⚠️ 核心难点预判
难点原因解决方案
GitHub 访问慢/超时国内网络限制用 ghproxy 镜像
HuggingFace 模型下载不了国内被墙用 hf-mirror
Gradio WebUI 无法访问 AI Studio 端口不直接暴露用 AI Studio 的端口代理
子模块拉取失败同样是网络问题手动处理子模块
📋 第一步：创建 AI Studio 项目
打开 aistudio.baidu.com
新建项目 → 选择 Notebook 模式
运行环境选 GPU（V100 或 A100 都行）
进入 Notebook 后，打开终端（Terminal）
📋 第二步：基础环境准备
在终端中执行：

1. 检查 GPU 和 CUDA

nvidia-smi
python --version # AI Studio 一般是 Python 3.10+

2. 安装 uv 包管理器

curl -LsSf https://astral.sh/uv/install.sh | sh
source ~/.bashrc # 让 uv 命令生效
uv --version # 验证

3. 设置 HuggingFace 镜像（关键！）

export HF_ENDPOINT=https://hf-mirror.com

写入 bashrc 永久生效

echo ‘export HF_ENDPOINT=https://hf-mirror.com’ >> ~/.bashrc
📋 第三步：克隆项目（用国内镜像加速）

用 ghproxy 加速克隆

git clone https://ghproxy.com/https://github.com/HumanAIGC-Engineering/OpenAvatarChat.git
cd OpenAvatarChat

子模块单独处理（直接递归可能失败）

先初始化

git submodule init

查看有哪些子模块

git config --file .gitmodules --get-regexp url
如果子模块拉取也慢，手动改用镜像：

把子模块的 github 地址替换为 ghproxy 地址

sed -i ‘s|https://github.com/|https://ghproxy.com/https://github.com/|g’ .gitmodules

然后更新并拉取

git submodule update --init --recursive
如果 sed 替换后子模块还是失败，就手动一个个克隆：

查看需要哪些子模块

cat .gitmodules

假设子模块在 third_party/xxx，手动克隆

git clone https://ghproxy.com/https://github.com/xxx/xxx.git third_party/xxx

📋 第四步：创建虚拟环境 + 安装依赖

用 uv 创建虚拟环境（指定 Python 版本）

uv venv --python 3.11.11
source .venv/bin/activate

选择配置安装依赖（Edge TTS + LiteAvatar 方案最省事）

uv run install.py --uv --config config/chat_with_openai_compatible_edge_tts.yaml
如果 install.py 报错，看错误信息逐个解决。常见问题：

如果某个包安装失败，尝试单独装

uv pip install 包名 -i https://pypi.tuna.tsinghua.edu.cn/simple

如果是 PyTorch 相关问题，确认 CUDA 版本后重装

uv pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
📋 第五步：下载 LiteAvatar 模型

确保镜像变量还在

export HF_ENDPOINT=https://hf-mirror.com

运行下载脚本

bash scripts/download_liteavatar_weights.sh
如果脚本报错，手动下载：

在 Notebook 里新建一个 cell 执行

from huggingface_hub import snapshot_download
import os
os.environ[“HF_ENDPOINT”] = “https://hf-mirror.com”
snapshot_download(
repo_id=“HumanAIGC-Engineering/LiteAvatar”,
local_dir=“./weights/liteavatar”,
local_dir_use_symlinks=False
)
print(“下载完成”)
📋 第六步：配置 LLM API Key
你需要一个 OpenAI 兼容的 API，推荐用免费的：
方案A：百度千帆（AI Studio 自家，免费额度）

修改配置文件

vim config/chat_with_openai_compatible_edge_tts.yaml

找到 LLM 部分，改成：

llm:
api_base: “https://qianfan.baidubce.com/v1” # 或千帆的兼容端点
api_key: “你的千帆API_KEY”
model: “ernie-4.0-8k” # 或其他免费模型
方案B：其他免费 API
平台免费额度兼容性
百度千帆有免费额度 OpenAI 兼容
硅基流动 (SiliconFlow) 有免费额度 OpenAI 兼容
DeepSeek 有免费额度 OpenAI 兼容
Groq 免费额度大 OpenAI 兼容
📋 第七步：启动服务（关键：端口映射）
AI Studio 的 Notebook 不能直接访问 localhost:7860，需要用它的端口代理：
source .venv/bin/activate

启动 OpenAvatarChat

uv run src/demo.py --config config/chat_with_openai_compatible_edge_tts.yaml --server_name 0.0.0.0 --server_port 7860
在 AI Studio 中访问 WebUI：
AI Studio 提供了两种方式访问服务：
方式1：直接点击生成的链接
启动后终端会显示类似 https://xxx.aistudio.baidu.com/proxy/7860 的链接
点击即可打开
方式2：手动设置端口代理

如果 AI Studio 有端口转发按钮，添加 7860 端口

或者查看 AI Studio 的"自定义服务"入口

💡 不同版本的 AI Studio 界面不同，找 “自定义服务” 或 “端口映射” 按钮，把 7860 映射出来。
📋 第八步：改成访谈模式
启动成功后，修改 LLM 的 system prompt，让它输出访谈格式：

在配置文件中找到 system_prompt 相关字段，改成：

system_prompt: |
你是一个访谈节目的主持人。请按以下格式输出：
主持人：[你的提问]
嘉宾：[嘉宾的回答]
每次只输出一轮对话，等待用户（嘉宾）回应后再继续。
🔧 常见报错及解决
报错1：git submodule update 失败

跳过子模块，手动处理

git submodule deinit -f .
rm -rf .git/modules/

然后手动克隆需要的子模块

报错2：uv: command not found
source ~/.bashrc

或

source ~/.cargo/env
报错3：CUDA out of memory

换成 CPU 模式（慢但能跑）

export CUDA_VISIBLE_DEVICES=“”

或者选更高显存的 GPU 实例

报错4：HuggingFace 下载超时

确认镜像设置

echo $HF_ENDPOINT

应该输出 https://hf-mirror.com

如果不是，重新设置

export HF_ENDPOINT=https://hf-mirror.com
报错5：端口访问不了

在 Notebook 里测试服务是否启动

import requests
resp = requests.get(“http://localhost:7860”)
print(resp.status_code) # 应该是 200
📊 整体时间估算
步骤预计时间
克隆项目 5-10 分钟
安装依赖 15-30 分钟
下载模型 10-20 分钟
配置 + 调试 20-30 分钟
总计约 1-1.5 小时
总结：核心就是三个坑要绕——GitHub 用 ghproxy、HuggingFace 用 hf-mirror、WebUI 用 AI Studio 端口映射。把这三个搞通，剩下的按官方文档走就行。显存要求要看你选哪种“数字人”和是否用本地大模型，差别非常大。最省显存的组合：LiteAvatar + 云端 LLM + Edge TTS / CosyVoice API，官方实测只要 3～6GB 显存就能跑；如果用本地未量化的 MiniCPM-o，就要 20GB+ 显存。

1. 官方给的“硬指标”

项目文档里写得很清楚：

支持 CUDA 的 NVIDIA GPU
未量化 MiniCPM-o 模型：需要 20GB 以上显存
int4 量化版 MiniCPM-o：需要 10GB 以下显存
数字人推理支持CPU/GPU，显存不够可以靠 CPU 兜底
另外一篇低显存实测文章：用SenseVoice + LLM API + CosyVoice API跑 LiteAvatar / LAM，在 RTX 3060 6G 上：
LAM 数字人：约3.1GB 显存
LiteAvatar 数字人：约5.3GB 显存

2. 按你选择的组件看显存需求

2.1 只看“数字人”这一块（不含本地 LLM）

数字人类型	典型显存占用（单路）	说明
LiteAvatar（2D）	约 3～6GB	官方说 CPU 也能 30fps，GPU 大概 3G 起步，4～6G 更舒服
LAM（3D 高斯泼溅）	约 3GB 左右	实测比 LiteAvatar 略省一点，但和场景/分辨率强相关
MuseTalk（口型同步）	一般 4～8GB 就能跑；8GB 以上更稳	它是视频驱动，分辨率/batch_size 影响很大

如果你只想要“数字人画面”，4GB 显存 + 云端 API 基本够玩，6GB 以上更舒服。

2.2 加上本地大模型（MiniCPM-o）

这是真正吃显存的大头：

模型方案	显存需求	适合什么显卡
MiniCPM-o 未量化	20GB+	3090/4090 这种 24G 卡，或 A100 40G
MiniCPM-o int4 量化	10GB 以下	3060 12G、3060Ti 8G 都可以尝试
完全用云端 LLM API	数字人那点 3～6G 就够	1060 6G / 3050 4G 都能跑 LiteAvatar
所以：如果显存 ≤8GB，基本不要想本地跑完整 MiniCPM-o，老实用云端 LLM API。

3. 不同硬件档位怎么选配置

结合官方和社区实测，可以这么选：

3.1 4GB 显存（如 GTX 1650 / 3050 4G）

推荐配置：
chat_with_openai_compatible_edge_tts.yaml或
chat_with_openai_compatible_bailian_cosyvoice.yaml
特点：
- LLM：云端 API（千帆 / 文心 / DeepSeek 等）
- TTS：Edge TTS 免费或 CosyVoice API
- 数字人：LiteAvatar，可设use_gpu: true但要降分辨率/帧率
显存占用：
官方实测类似配置在 6G 卡上约 3～5G，4G 卡建议：
- 分辨率：512×512 或更低
- fps：20～25
- 不开其他大模型

3.2 6～8GB 显存（如 3060 6G / 3060Ti 8G）

推荐配置：
- 想省钱：chat_with_openai_compatible_edge_tts.yaml
- 想音质好一点：chat_with_openai_compatible_bailian_cosyvoice.yaml+ CosyVoice API
显存规划：
- LiteAvatar / LAM：3～6G
- 再开个本地量化小模型勉强能塞，但会很紧张，建议还是云端 LLM
可以尝试：
- MuseTalk：8GB 显存是官方“推荐起步线”
- 但要注意分辨率、batch_size 都要调小

3.3 10～12GB 显存（如 3080 10G / 3080 12G）

可以玩：
- 本地量化 MiniCPM-o（int4）：约 10G 以下显存
- LiteAvatar / MuseTalk 同时跑，基本没问题
推荐配置：
- chat_with_minicpm.yaml（本地量化模型）
- 或者云端 LLM + MuseTalk 做更酷的口型同步

3.4 16GB 及以上显存（如 3090 / 4090 / A100）

想怎么玩怎么玩：
- 未量化 MiniCPM-o + LiteAvatar / LAM + MuseTalk 都能上
- 多路并发数字人客服（每路大约 3G 左右，自己算一下能开几路）

4. 实用显存优化技巧

用云端 LLM 替代本地 MiniCPM-o
这是降显存最狠的一招：从 20G+ 直接掉到 3～6G。
LiteAvatar / MuseTalk 参数调低
- 分辨率：从 1024×1024 降到 512×512
- fps：从 30 降到 20～25
- batch_size：MuseTalk 推理设为 1
开启 FP16 / 半精度
LiteAvatar 官方实测 FP16 可以把显存再砍掉一截，RTX 3060 也能更流畅。
多会话时注意并发数
OpenAvatarChat 支持多路对话，每路 LiteAvatar 大约 3G 显存。
- 6G 卡：建议 1～2 路
- 8G 卡：2～3 路
- 12G+：4 路以上没问题

5. 一句话总结

只想跑 LiteAvatar 数字人 + 云端 API：4GB 显存就能玩，6GB 以上更舒服。
想本地跑 MiniCPM-o：至少 10GB 显存（int4 量化），20GB+ 才敢用未量化版。
显存不够就：云端 LLM + Edge TTS + LiteAvatar，这是最低门槛组合。
如果你告诉我你现在的显卡型号（比如 3060 8G / 4060 8G / 3090 24G 之类），我可以直接帮你选一个具体配置文件和推荐参数。