news 2026/4/29 3:06:48

阿里HappyHorse 1.0灰度测试:生成速度快但与竞品有差距,仍有提升空间

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里HappyHorse 1.0灰度测试:生成速度快但与竞品有差距,仍有提升空间

阿里HappyHorse 1.0开启灰度测试:实测有亮点也有提升空间,与竞品仍有差距

智东西4月27日报道,今天,阿里ATH创新事业部的最新视频生成与编辑模型HappyHorse 1.0(官方译名:快乐小马)开启灰度测试。创作者可在阿里云百炼平台和HappyHorse官网注册使用,大众用户可在千问App中体验。

在盲测平台Arena.ai上,HappyHorse 1.0在文生视频、图生视频、视频编辑三个榜单上均排名第二,仅次于前段时间爆火的字节Seedance 2.0。为验证HappyHorse 1.0的真实效果,进行了多维度的实测。只需输入简单的文字描述,用户就可用HappyHorse 1.0生成一段3s - 15s长度的视频,视频中可以实现多镜头切换、连贯剧情等要素。

官网显示,HappyHorse 1.0分辨率最高支持1080p,最多可同时生成4个视频,生成720P和1080P视频的刊例价分别为0.9元/s及1.6元/s,Pro套餐包月价格叠加限时折扣后为0.44元/s和0.78元/s。同时,HappyHorse 1.0也出现在阿里旗下多款产品中,如阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告,近期将上线“测一测”视频玩法,测出用户在短剧宇宙的本名角色后,通过HappyHorse 1.0生成用户本人“出演”的角色短剧片段。

在这次实测中,发现了HappyHorse 1.0在指令遵循、生成速度方面的明显优势,也看到了它在画面物理准确性、音画同步等方面仍有提升空间。以下是提炼出的核心体验要点:

(1)生成速度快:体验过程中,生成一段视频仅需约2 - 5分钟,与其他视频生成模型相比有一定竞争力。

(2)指令遵循能力强:能理解并执行复杂的提示词要求,包括镜头运动、画面构图、风格氛围等。

(3)多元素参考还原度高:图生视频中能准确呈现所有上传的参考元素,包括人物、场景、道具等。

(4)音画同步仍有提升空间:人声、音效等同步效果较好,但是在乐器演奏等复杂场景中,模型生成的手部动作与音频节奏存在明显错位。

(5)长叙事易穿帮:10s以上的较长视频中,容易出现物理bug,比如无外力物体自移动等等。

(6)文字渲染错误:画面中出现的文字常出现乱码或错误。

以下是完整实测过程:

HappyHorse官网:www.happyhorse.cn

能理解800词超长提示词,物理真实性还有提升空间

首批实测任务聚焦文生视频能力。在这一场景中,模型的指令遵循能力、生成结果的物理准确性、音画同步效果等都是值得关注的能力点。

-案例1:复杂动作与音画同步

提示词:街头音乐表演,鼓手敲击节奏、吉他手弹奏旋律,观众围成半圈随节奏拍手并轻微摆动身体,氛围热烈,拉美风格,傍晚暖色灯光,镜头缓慢推进。

HappyHorse 1.0的生成速度是一大亮点,下方视频生成的耗时大概在2分钟左右。从生成结果上来看,HappyHorse 1.0生成的人像没有出现肢体异常、扭曲等问题,镜头运动、画面灯光等元素符合提示词要求。音画同步效果是这段视频中的缺憾。吉他手的演奏和视频里的音乐节奏不同步,尤其在某些和弦的切换和重拍落点上,画面中的手部动作与音频中的音符出现错位,破坏了演奏的真实感与沉浸感。

-案例2:物理真实性

提示词:海边悬崖上,海浪猛烈拍打岩石,水花飞溅,天空乌云密布,风吹动人物衣服和头发,电影级真实感,慢动作。

在这一案例中,HappyHorse 1.0需要完成对物理世界的模拟,其难点在于对水体、风这些元素的呈现。最终,HappyHorse 1.0的生成结果很好地还原了波涛汹涌的效果,海浪与岩石的撞击、海面上的泡沫都较为符合物理规律。切换到人物后,主角头发的飘动方向和衣服的飘动方向基本一致。美中不足的是,近景画面中水滴滑落的速度不太符合物理规律,显得略微慢了半拍。

-案例三:超长提示词

提示词:在这一案例中,考察了HappyHorse 1.0对复杂提示词的理解能力。这段提示词长达800词,描述的是一个类似知名游戏《GTA》的实机演示画面。提示词对画面中几乎所有元素都进行了定义,包括人物、天气、环境、建筑等等,HappyHorse 1.0对这些元素都做了准确呈现。不过,开头的第一个画面出现了物理bug,车门在没有受到外力的情况下自己关闭了。最后一个镜头中,主角出现了变化,这显示出HappyHorse在这一案例中的一致性方面还有提升空间。

-案例四:镜头语言与叙事感

提示词:夜晚城市街道,一名侦探在雨中行走,霓虹灯反射在湿漉漉的地面上,镜头从远景缓慢拉近到特写,电影黑色风格。

上方提示词对运镜方式、画面风格都做了细致的规定,这对HappyHorse 1.0的指令遵循能力提出要求。最终,HappyHorse 1.0生成了从远景缓慢拉近到特写的镜头要求,电影风格无误,霓虹灯的光线和反射都较为自然,但画面中的中文文字渲染有明显错误。在这一案例中,还采用了1080P的分辨率和最长的15s时长,可以看到,放大后的画面细节依然较为清晰。

从这几个案例来看,在提示词要求较为详细时,HappyHorse 1.0可以较好地理解并执行复杂的画面构图、镜头运动和风格氛围要求,生成的人物形体与基础物理交互也相对稳定;但在高精度音画同步、微观物理细节以及画面中的文字渲染方面仍有提升空间。

最多支持9图参考,实测让奥尔特曼和马斯克“对簿公堂”

除了文生视频之外,HappyHorse 1.0也支持图生视频与视频编辑,这些场景对一致性、稳定性提出了较高要求。不过,在今天的实际测试过程中,始终未能成功体验视频编辑能力。

-案例一:首帧模式

首先尝试了图生视频功能中的首帧模式,所上传的图片是OpenAI联合创始人兼CEO萨姆·奥尔特曼和Anthropic联合创始人兼CEO达里奥·阿莫迪前段时间的合影。不过,可能是因为画面中涉及多位真实人物,模型拒绝了这一生成请求。之后上传了奥尔特曼的单人照,要求模型生成他喝咖啡的画面。这次尝试最后成功了,画面中人物与真人照片的相似度应该能达到8成左右,并且随着光线和背景的变化,人物的样貌没有出现改变。

-案例二:多人物参考

多图参考中,上传了马斯克与奥尔特曼的图像,要求HappyHorse 1.0提前想象一下这两位人物对簿公堂、激烈争吵的画面。这次HappyHorse 1.0也没有拒绝生成请求,它给出的首版生成结果中,并没能体现出二人争吵的效果,主要是“马斯克”在单方面输出。此外,模型似乎不理解这两位人物的母语都是英语,画面中“马斯克”操着一口流利的中文。再进一步细化要求后,HappyHorse 1.0能够生成二人用英语争论的画面,其中人物的表情丰富,但是与参考图相比出现了较为明显的偏差。

-案例三:多元素参考

除了上传多个人物之外,多图参考也允许用户对视频模型生成画面的背景、具体元素等提供素材。便上传了Sora核心人物Bill Peebles、OpenAI办公室、纸箱等元素,要求HappyHorse 1.0生成一个离职的画面。在这一案例中,HappyHorse 1.0做得较高的方面是它准确生成了上传的所有参考元素,人物、环境等都基本一致。然而画面中出现了不少物理bug,比如纸箱自动合上,门自动打开等等。

1080P、生成速度成HappyHorse亮点

在HappyHorse 1.0开始测试之际,智东西等部分媒体与多位参与HappyHorse 1.0测试的业内人士探讨了这一模型目前的表现,及其在行业中的竞争站位。

出海一站式AI电商营销平台麦斯国际的技术合伙人李明认为,3s - 15s的生成长度、较快的生成速度、支持1080P是HappyHorse 1.0的亮点功能。同时,在提示词较为明确的情况下,模型的产出效果“还可以”。然而,在实践中,HappyHorse 1.0也展现出一些问题,比如生成视频结果的一致性、生成语音内容的机械感等等。李明认为,HappyHorse 1.0与字节Seedance 2.0、OpenAI Sora 2等模型相比,“还有一些再提升的空间”。

向李明提及实测过程中遇到的音画同步、文字渲染等问题。李明称,字幕等文字内容的渲染其实是当前AI视频生成模型的通病,目前业内很少靠大模型直接生成,而是会借助后期工具进行补充,这种模式也给调整留有余地。音画同步方面,李明观察到通过更好的提示词工程,可以提升HappyHorse 1.0、Seedance 2.0等模型的音画同步效果,但这些模型目前在音画同步维度多少还存在一些问题。李明判断,对企业而言,当前视频生成模型的生成质量仍是一个普遍存在的痛点,部分创作团队的“抽卡率”甚至高达50% - 60%。生成的时效性也还有提升空间。相比之下,价格反而是用户更容易接受的维度。如果能做到又快又好,用户对价格的接受度自然会随之提高。

参与内测的AI视频创作平台Flova相关团队认为,HappyHorse 1.0模型在真实感与叙事能力上表现不错,尤其适合叙事性内容、纪录片风格的题材。同时,HappyHorse 1.0的焦段运用接近实拍,减轻了视频的“AI感”,让观感更加真实,其镜头运动也比较自然。

结语:一匹有潜力的“快乐小马”

从体验感受来看,HappyHorse 1.0可以是一款不错的视频生成模型,其较强的指令遵循能力为专业创作者提供了更多的精细化控制的空间,一定程度上降低了反复抽卡、试错带来的资源浪费。然而,HappyHorse 1.0的画面还有不少可提升的空间,比如画面的“油腻感”、物理准确性等等。随着进一步迭代,这一模型有望在真实生产场景中发挥更大作用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/29 3:06:19

某金融行业用户邮件安全项目经验分享

金融行业是我国关键信息基础设施领域,所承担的业务数据关系到国家安全、经济安全、数据安全、民生安全、个人信息安全,邮件系统作为数据交互的核心载体,其安全性至关重要。同时,金融监管机构对金融行业国产化替代提出了明确的时间表,因此邮件安全在金融行业是一个重要的研…

作者头像 李华
网站建设 2026/4/29 3:02:03

5分钟彻底清理Windows 11:Win11Debloat终极免费优化指南

5分钟彻底清理Windows 11:Win11Debloat终极免费优化指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and …

作者头像 李华
网站建设 2026/4/29 2:58:24

当AI能写95%的代码,程序员还剩什么价值?

➡️曾经:执行力为王 过去,程序员每天60-70%的时间都花在execution上,琢磨如何把业务逻辑用代码实现。那时候,熟练掌握工作所需的编程语言和framework非常重要,每个语言和框架都有差异,需要时间学习适应&a…

作者头像 李华
网站建设 2026/4/29 2:56:22

MySQL 核心进阶:开窗函数、事务、视图、索引与范式

MySQL 核心进阶:开窗函数、事务、视图、索引与范式 在掌握基本的多表查询后,要想真正高效地使用 MySQL,就必须理解数据库的设计规范(范式)、保证数据一致性的事务机制、优化查询性能的索引、简化复杂查询的视图&#x…

作者头像 李华
网站建设 2026/4/29 2:46:27

IT疑难杂症诊疗室:快速解决技术难题

以下是一篇关于“IT疑难杂症诊疗室”的技术文章大纲。该大纲旨在帮助读者系统性地诊断和解决IT常见问题,内容结构清晰,分为引言、问题分类、诊断方法、解决方案、预防措施和结论等部分。大纲设计基于真实IT支持经验,确保实用性和可操作性。1.…

作者头像 李华