news 2026/1/10 10:06:34

腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

今日,腾讯混元发布并开源 HY-World 1.5(WorldPlay),其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。

HY-World 1.5到24 FPS 生成一致性的长时域流式视频,与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,实现了3D重建、可提示事件和无限世界扩展等多样化应用。

⭐核心能力是什么

HY-World 1.5(WorldPlay)是一种基于 streaming video diffusion 的实时交互式生成世界模型,采用 Next-Frames-Prediction 的视觉自回归训练范式,在实时交互与长时 3D 几何一致性之间取得平衡,有以下四大核心设计:

  • 1.双分支动作表征实现精准控制;
  • 2.上下文记忆重构机制保持几何一致性;
  • 3.高效细粒度强化学习后训练框架来进一步增强生成视频的视觉质量和控制准确性;
  • 4.上下文对齐蒸馏技术实现实时生成并保证几何一致性。

⭐亮点都有哪些

(1)系统性概述

HY-World 1.5开源提供了一个系统全面的实时世界模型框架,涵盖了整个流程和所有阶段,包括数据、训练和推理部署。技术报告介绍了模型式预训练、强化学习训练和记忆消耗模型的详细训练。此外,报告介绍了一系列旨在减少网络传输延迟和模型推理延迟的工程技术,从而为用户实现实时流推理细节体验。

(2)推理流程

给定单张图像或文本提示来一个世界,我们的模型执行下一个(16个视频帧)预测任务,用户的动作生成未来视频。对于每一个的生成,我们从过去的块动态重构上下文记忆,以强制长期时间和几何块的一致性。

⭐评估结果如何

HY-World 1.5在各种定义指标上超越了现有方法,包括不同视频长度的重建指标和人工评估。

混元全新大模型正式发布,专属体验通道现已开放!
我们的小编第一时间申请了体验权限,大家都顺利拿到体验码了吗?

Lab4AI可提供高性能GPU算力资源,同时我们也诚邀各位前来贡献你的体验实践内容。
👉点击体验

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/22 18:21:15

生成式引擎优(GEO)化如何破解企业营销困局

企业广告营销和市场营销正面临前所未有的挑战。 巨额广告投入却石沉大海 ,精心策划的营销活动难以触达目标受众 ,品牌信息在海量内容中被稀释得无影无踪。这些痛点如同沉重的枷锁 ,让企业在市场竞争中举步维艰。而生成式引擎优化(…

作者头像 李华
网站建设 2025/12/23 2:56:19

视频分割利器

前言做自媒体的朋友在工作中一定会遇到分割视频的时候,如果视频小的话,用普通的剪辑工具 分割就行,一旦遇到长视频分割的时候,因为导出时间太长,就该头疼了。今天分享的这款工具,可以称为是“视频分割利器”…

作者头像 李华
网站建设 2025/12/22 23:48:54

Langflow插件市场终极指南:快速集成AI服务的完整教程

Langflow插件市场终极指南:快速集成AI服务的完整教程 【免费下载链接】langflow ⛓️ Langflow 是 LangChain 的用户界面,使用 react-flow 设计,旨在提供一种轻松实验和原型设计流程的方式。 项目地址: https://gitcode.com/GitHub_Trendin…

作者头像 李华
网站建设 2025/12/31 19:42:36

15分钟搭建Wappalyzer技术雷达原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个技术雷达可视化工具,集成Wappalyzer数据:1) 输入多个网站URL;2) 使用Wappalyzer收集技术数据;3) 在雷达图上展示技术分布(如…

作者头像 李华