news 2026/2/7 7:10:55

基于Qoder实现AI漫剧生成Agent搭建

张小明

前端开发工程师

1.2k 24

文章封面图 — 基于Qoder实现AI漫剧生成Agent搭建

项目背景

行业痛点

漫剧/短视频内容生产成本高、周期长（脚本→分镜→美术→动画→配音）
初创漫剧企业/教育机构缺乏专业动漫制作能力，但有高频轻量级视频需求（如营销广告、儿童英语启蒙）
现有AIGC工具链割裂，依赖人工，缺乏“一致性控制”与“用户干预闭环”

项目定位

打造一个端到端、可交互、风格一致的漫剧生成智能体 Demo，支持：

输入一句话创意 → 输出 30s–60s 动漫短剧（含画面+配音+字幕）
用户在关键节点（角色、场景、分镜）可人工确认或抽卡重新生成
支持两种典型场景：营销广告 + 少儿旁白科普课程（磨耳朵学英语场景）

业务价值

验证 Agentic Workflow 在多模态内容生成中的可行性，体现Qoder智能体模式的强大，帮忙推广Qoder。
构建基于Qwen + Wan + 百炼的通义全家桶 AIGC 工具链，证明在漫剧赛道，通义能对标即梦、可灵、Vidu、Sora等友商。在细节能力上正视差距，推进产品迭代改进。
协助没有智能体搭建经验的漫剧赛道初创公司进行工程化搭建，弥补在漫剧工具链上跟友商的差距，为后续 SaaS 化或嵌入营销/教育平台提供技术原型。

需求分析与功能定义

系统架构

功能模块

模块名称	输入	输出	是否可交互	技术实现
创意解析器	用户创意（文本）	结构化剧本（JSON）	否	Qwen-Max
角色生成器	剧本人物描述	多组角色立绘（PNG）	是（抽卡×3）	Wan 2.5-t2i-preview
场景生成器	剧本场景描述	多组背景图（PNG）	是（抽卡×3）	Wan 2.5-t2i-preview
分镜绘制器	(角色+场景+分镜文本)	分镜首帧图	是（逐镜确认）	Wan 2.2-i2i-flash
视频生成器	首帧 + 剧本动作描述	3–10s 视频片段（MP4）	否（自动）	Wan 2.5-i2v-preview
合成引擎	视频片段 + 音频 + 字幕	最终成片（MP4）	否	FFmpeg + 自定义合成逻辑

需求约束

一致性保障：同一角色/场景在不同分镜中保持视觉一致（通过ID绑定+特征缓存）。
生成速度：全流程 ≤ 10 分钟（Demo 可接受，非实时）。
可控性：每个“抽卡”环节提供 ≥3 选项，支持重试。
合规性：不生成真人肖像，角色为动漫风格。

交互流程

创意输入：一句话描述想生成的内容。

剧本生成：根据输入的创意自动拆解角色/场景/分镜。基于创意进行剧本的扩写，分镜的要素按JSON格式输出，包括角色，场景，构图，光线，角色动作，情绪，时长（每个片段3-10s），音效，配音描述（用于控制音色一致性）。

角色生成：百炼调用Wan2.5-t2i-preview生成角色图，一次三张，可以抽卡重新生成，时间大概20s。

场景生成：同上生成场景图，都是为了控制分镜主体一致性。

分镜生成：使用Wan2.2-i2i-flash参考角色图和场景图，结合详细分镜描述按顺序生成每个分镜的首帧，每张大概30s。

视频生成：确认好分镜图后，使用Wan2.5-i2v-preview结合剧本描述和台词同步生成视频和相应的配音，音画同步，并且自动完成剪辑拼接，整个过程3~5min。视频时长根据分镜多少决定，一般20s~1min。

效果演示

单角色讲解场景

动漫小狗早晨刷牙

小狗早晨刷牙

双角色对话场景

3D小鱼海底购物

小鱼购物

Q版日常打招呼

Q版日常打招呼

搭建工具

全程使用 Qoder自然语言生成+百炼API调用

1.使用Qoder Quest模式生成初版，把需求和大致思路像老板一样指派任务给agent，他会自主先生成产品需求设计，规划待办，再进行执行。

2.需要向他提供自己百炼API-Key。

3.在生成完初版项目之后，使用智能体模式进行精调。最好使用极致模式，性能最好但消耗多。

4.明确使用的模型具体名称，不然会出现调用失败。提供明确的名称后会智能体会自行查阅网页找到合适的接口格式。

目前问题

配音直接使用Wan2.5视频同步生成，好处是可以同步生成环境音效。为了保证音色一致性目前的解决方案是使用提示词约束，但效果不太好，后续考虑用TTS模型单独配音再合成。
多角色，多场景的分镜图合成还是控制的不够精细，目前最好的情况还是单场景单一角色的介绍，如果在复杂性高的多角色交互，场景切换的任务下还需要优化。
Qoder目前仅能个人开通PRO版，Credit有限，跑这样一个 Demo大概就花了一半的用量，希望可以尽快开通企业版内部使用。

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/2/3 12:44:53

微信ipad协议，个人号开发，wechatapi.net

在当今数字商业环境中，微信已不再仅仅是一个社交平台，它已成为连接品牌与消费者的核心枢纽，承载着客户关系管理、营销推广、服务交付等关键商业功能。随着私域运营理念的深入人心，企业对于微信生态自动化工具的需求呈爆发式增长。…

作者头像

李华

网站建设 2026/2/5 21:51:19

3大实战场景解析：Pulsar集群管理的正确打开方式

你是否曾经面对Pulsar集群管理时感到无从下手？复杂的配置项、繁琐的命令行、难以调试的权限问题...这些问题让很多开发者对消息队列管理望而却步。今天，我们就来一起解决这些难题，用最实战的方式掌握Pulsar集群运维的核心技巧。【免费下载链…

作者头像

李华

网站建设 2026/2/6 22:09:16

3分钟精通OpenSubtitlesDownload：终极免费字幕下载解决方案

3分钟精通OpenSubtitlesDownload：终极免费字幕下载解决方案【免费下载链接】OpenSubtitlesDownload Automatically find and download the right subtitles for your favorite videos! 项目地址: https://gitcode.com/gh_mirrors/op/OpenSubtitlesDownload …

作者头像

李华

网站建设 2026/2/5 6:39:52

构建企业级容器管理平台自动化部署的完整技术方案

构建企业级容器管理平台自动化部署的完整技术方案【免费下载链接】portainer Portainer: 是一个开源的轻量级容器管理 UI，用于管理 Docker 和 Kubernetes 集群。它可以帮助用户轻松地部署、管理和监控容器，适合用于运维和开发团队。特点包括易于使用、支…

作者头像

李华

网站建设 2026/2/3 3:47:52

基于三有源桥的模型预测控制仿真，可以独立控制输出侧两个端口的电压或者电流，动态响应快，也可以扩...

基于三有源桥的模型预测控制仿真，可以独立控制输出侧两个端口的电压或者电流，动态响应快，也可以扩展至四有源桥电路。最近在研究基于三有源桥的模型预测控制（MPC）仿真，发现这东西挺有意思的。三有源桥电路结…

作者头像

李华

网站建设 2026/2/3 4:55:49

SOLID软件设计原则解析

前言：在平时coding过程中，大部分程序员可能把更多精力和时间花在功能的实现和完成上面，对于代码的可读性、可读性及可扩展性没有过多的关注，这可能会造成后期功能扩展困难、新人无法理解等问题。这里介绍一些软件代码设计原则&…

作者头像

李华