生数科技商业化总监陈鹤天：视频生成破瓶颈，AI赋能漫剧产业

2025年12月26日，极新主办的【想象·2025极新AIGC峰会】在上海浦东浦软大厦成功召开。生数科技商业化总监陈鹤天先生在会上做了题为《视频生成模型冲破内容产能焦虑》的演讲。重点分享了漫剧赛道的发展现状、AI视频生成技术的创新应用以及生数科技在赋能产业方面的助力作用。

生数科技商业化总监陈鹤天

陈鹤天重点提到以下几点：

“多参模型加上主体库，可以快速的完成整个的商业的闭环。”

“Vidu Q2模型非常适合漫剧生产”

“通过参考生视频，可以提效大概40%左右。”

以下内容为陈鹤天演讲原文，经极新整理:

非常开心在峰会上与大家交流。今天想和大家分享AI领域的热门应用赛道——漫剧产业。我们经过慎重斟酌确定这一方向，核心在于通过多参模型结合主体库，能够快速完成商业闭环。接下来，为大家拆解为何Vidu能打造漫剧稳定输出的数字生产线。

01 多模态俨然成为必选项

“多参模型加上主体库，可以快速的完成整个的商业的闭环”

首先看2025年漫剧赛道，市场规模突破200亿元，超过10万家企业入局，同时头部玩家大概可以月产100部作品，行业月产量以千计。同时AI加漫剧领域面临几个问题：产能依赖AI能力效率和人效比；质量需要剧本与技术结合；人才储备不足，如何快速扩充百人级团队是关键。

为什么是用Vidu来做？首先简单介绍一下我们公司的情况，生数科技其实是23年成立的，虽然只成立了两年多的时间，但是我们其实所有的底层大模型都是全部自研的，在自研的底层的模型的不断的迭代的过程当中，就会出现不同的一些适配和适用。

其次在音视频直出方面领先，例如Vidu Q2模型。公司团队以清华系为核心，包括清华大学人工智能研究院副院长朱军教授，成员来自清北、帝国理工等，80%为产研人员。

生数科技的优势点核心有两个：首先是全球首个提出并开源U-VIP架构，为AI音视频能力底层架构，被多家企业采用；其次是与清华大学联合发布的开源框架，将视频生成加速200倍。例如，生成高清5秒视频仅需1.9秒，视频生成进入实时过程，算力需求降低。

02 质量趋向于剧本加技术

“Vidu Q2模型非常适合漫剧生产”

首先多模态大模型AI发展跨越两层技术基点：商业化和音视频直出。不同模型汇聚到焦点，语言模型、生图模型和生视频模型交织，多模态成为必选项。生数科技近期发布生图模型，与主流技术持平，多模态朝聚合方向推动。

从互动娱乐到专业级制作，模型应用涵盖多个领域。最初围绕互动娱乐，如特效变身，逐步到商单广告和影视级创作。漫剧爆发因为模型达到制作量级。生数科技服务全球3000多家开发者和1万多家B端客户，多个爆款漫剧使用维度模型。

Vidu Q2模型适合漫剧生产，因其表演情绪和表情变化突出。AI生成的人物表情、头发微动和眼神神态接近真人，人味增强。生数科技与Sora、可灵处于行业第一梯队，首创“参考生活性”技术，通过人物、道具和场景联动，让视频动起来。

03 产能依赖于AI能力效率

“通过参考生视频，可以提效40%左右”

首先漫剧方案通过参考生视频简化流程，无需分镜图，直接进行资产迭代。通过图生和参考性应用，效率提升约40%。例如，输入主体如人物、背景和道具，视频即可动起来，真人感强。目前我们Vidu Q2是支持生成2~8秒时长的视频，同时支持无限扩写，无限扩写的意思就是可以无限延长。视频可以持续性的往前去推动，主体里面最核心的能力其实是它的资产可以复用，同时能够更好的保持长期的一致性。

参考生视频支持多个参考，如主体人物、环境、道具、色调、线稿和姿态。例如，变换衣服材质、色调调整为夕阳感，或转换宫崎骏风格，都容易实现。情绪变化和复杂招式如降龙十八掌也可固定时间关系。

AI生成内容已达到高水平，例如预审短片由AI生成。所以说Vidu的AI让想象发生是一件很重要的事情。我们也看到，未来AI肯定会从漫剧走向真人短剧，整个市场规模其实是一个更高的千亿级市场，所以说机会其实是无限的。

YOLOFuse部署实践：在GPU算力平台快速启动双流检测

YOLOFuse部署实践：在GPU算力平台快速启动双流检测在智能安防、夜间巡检和自动驾驶等现实场景中，我们常常面临这样的困境：摄像头在白天表现良好，但一到夜晚或烟雾弥漫的环境中，目标检测性能便急剧下降。可见光图像失去…

李华

YOLOFuse typora写博客引流策略：发布SEO优化文章吸引用户

YOLOFuse 多模态目标检测技术深度解析：基于双流融合的开箱即用解决方案在智能安防、自动驾驶和夜间巡检等实际场景中，单一可见光（RGB）图像常常“力不从心”——低光照下细节模糊，烟雾遮挡时目标丢失，极端天…

李华

YOLOFuse javascript FileReader读取本地图像上传

YOLOFuse 与 JavaScript FileReader：构建轻量级多模态目标检测系统在智能安防、无人巡检和夜间监控等场景中，单一可见光图像常常因光照不足或环境遮挡而失效。如何让机器“看得更清”，尤其是在黑暗或烟雾弥漫的环境中？答案逐渐指…

李华

YOLOFuse 百度地图API结合位置信息打标检测对象

YOLOFuse：融合红外与可见光的目标检测系统及其地理信息集成实践在城市安防监控中心的大屏上，深夜的街道画面常常陷入一片漆黑——传统摄像头在低光照环境下几乎“失明”。而与此同时，边境巡逻无人机搭载的红外传感器却能清晰捕捉到热源移动。…

李华

YOLOFuse typora数学公式渲染异常解决办法

YOLOFuse 数学公式渲染异常的根源与实战解决方案在撰写多模态目标检测项目文档时，你是否曾遇到这样的尴尬：精心写好的 LaTeX 公式，在 Typora 里却显示为空白、乱码，甚至整段文字“失灵”？尤其是在描述 YOLOFuse 这类基…

李华

YOLOFuse github镜像同步更新机制：保持代码最新状态

YOLOFuse 镜像同步机制与多模态检测实践在复杂环境感知系统日益智能化的今天，单一视觉模态的局限性愈发明显。夜间监控中可见光图像模糊不清，烟雾遮挡下传统目标检测频频漏检——这些现实问题不断推动研究者探索更鲁棒的技术路径。正是在这样的背景下&a…

李华