news 2026/5/1 15:11:30

【腾讯拥抱开源】HY-World 1.5:具有实时延迟与几何一致性的交互式世界建模系统框架

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【腾讯拥抱开源】HY-World 1.5:具有实时延迟与几何一致性的交互式世界建模系统框架

🎮 HY-World 1.5: 具有实时延迟与几何一致性的交互式世界建模系统框架

📖 简介

尽管HY-World 1.0能够生成沉浸式3D世界,但其依赖耗时的离线生成流程且缺乏实时交互能力。HY-World 1.5通过WorldPlay填补了这一空白——这是一个支持实时交互式世界建模的流式视频扩散模型,具备长期几何一致性,解决了现有方法在速度与内存之间的权衡难题。我们的模型依托四大核心设计实现突破:

  1. 双重动作表征:通过键盘鼠标输入实现鲁棒的动作控制;
  2. 重构上下文记忆:动态重组历史帧上下文,采用时序重构技术保留几何关键帧的可访问性,有效缓解记忆衰减;
  3. 世界罗盘:创新的强化学习后训练框架,直接提升长时序自回归视频模型的动作跟随性与视觉质量;
  4. 上下文强制蒸馏:专为记忆感知模型设计的新蒸馏方法,通过对齐师生模型的记忆上下文保留远程信息处理能力,在实现实时速度的同时避免误差漂移。

综合而言,HY-World 1.5能以24FPS生成具备卓越一致性的长时序流式视频,性能优于现有技术。该模型在多样化场景中展现出强大泛化能力,支持第一人称与第三人称视角,兼容写实与风格化环境,可应用于3D重建、可触发事件及无限世界扩展等多元场景。

  • 系统概览
    HY-World 1.5开源了实时世界模型的系统化训练框架,涵盖数据、训练、推理部署全流程。技术报告详细披露了模型预训练、中期训练、强化学习后训练及记忆感知蒸馏的具体实现,并介绍了一系列降低网络传输延迟与模型推理延迟的工程技术,最终为用户提供实时流式推理体验。

  • 推理流程

    给定一张图像或描述世界的文本提示,我们的模型执行下一片段(16个视频帧)预测任务,根据用户动作生成未来视频。对于每个片段的生成,我们会动态重组过去片段的上下文记忆,以确保长期的时间和几何一致性。

🔑 使用示例

我们开源了双向扩散模型和自回归扩散模型的推理代码。对于提示词改写,推荐使用Gemini或通过vLLM部署的模型。当前代码库仅支持兼容vLLM API的模型。如需使用Gemini,需自行实现接口调用。具体实现可参考HunyuanVideo-1.5项目。

推荐使用generate_custom_trajectory.py脚本生成自定义相机运动轨迹。

exportT2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"exportT2V_REWRITE_MODEL_NAME="<your_model_name>"exportI2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"exportI2V_REWRITE_MODEL_NAME="<your_model_name>"PROMPT='A paved pathway leads towards a stone arch bridge spanning a calm body of water. Lush green trees and foliage line the path and the far bank of the water. A traditional-style pavilion with a tiered, reddish-brown roof sits on the far shore. The water reflects the surrounding greenery and the sky. The scene is bathed in soft, natural light, creating a tranquil and serene atmosphere. The pathway is composed of large, rectangular stones, and the bridge is constructed of light gray stone. The overall composition emphasizes the peaceful and harmonious nature of the landscape.'IMAGE_PATH=./assets/img/test.png# Now we only provide the i2v model, so the path cannot be NoneSEED=1ASPECT_RATIO=16:9RESOLUTION=480p# Now we only provide the 480p modelOUTPUT_PATH=./outputs/MODEL_PATH=# Path to pretrained hunyuanvideo-1.5 modelAR_ACTION_MODEL_PATH=# Path to our HY-World 1.5 autoregressive checkpointsBI_ACTION_MODEL_PATH=# Path to our HY-World 1.5 bidirectional checkpointsAR_DISTILL_ACTION_MODEL_PATH=# Path to our HY-World 1.5 autoregressive distilled checkpointsPOSE_JSON_PATH=./assets/pose/test_forward_32_latents.json# Path to the customized camera trajectoryNUM_FRAMES=125# Configuration for faster inference# For AR inference, the maximum number recommended is 4. For bidirectional models, it can be set to 8.N_INFERENCE_GPU=4# Parallel inference GPU count.# Configuration for better qualityREWRITE=false# Enable prompt rewriting. Please ensure rewrite vLLM server is deployed and configured.ENABLE_SR=false# Enable super resolution. When the NUM_FRAMES == 121, you can set it to true# inference with bidirectional modeltorchrun --nproc_per_node=$N_INFERENCE_GPUgenerate.py\--prompt"$PROMPT"\--image_path$IMAGE_PATH\--resolution$RESOLUTION\--aspect_ratio$ASPECT_RATIO\--video_length$NUM_FRAMES\--seed$SEED\--rewrite$REWRITE\--sr$ENABLE_SR--save_pre_sr_video\--pose_json_path$POSE_JSON_PATH\--output_path$OUTPUT_PATH\--model_path$MODEL_PATH\--action_ckpt$BI_ACTION_MODEL_PATH\--few_stepfalse\--model_type'bi'# inference with autoregressive model#torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \# --prompt "$PROMPT" \# --image_path $IMAGE_PATH \# --resolution $RESOLUTION \# --aspect_ratio $ASPECT_RATIO \# --video_length $NUM_FRAMES \# --seed $SEED \# --rewrite $REWRITE \# --sr $ENABLE_SR --save_pre_sr_video \# --pose_json_path $POSE_JSON_PATH \# --output_path $OUTPUT_PATH \# --model_path $MODEL_PATH \# --action_ckpt $AR_ACTION_MODEL_PATH \# --few_step false \# --model_type 'ar'# inference with autoregressive distilled model#torchrun --nproc_per_node=$N_INFERENCE_GPU generate.py \# --prompt "$PROMPT" \# --image_path $IMAGE_PATH \# --resolution $RESOLUTION \# --aspect_ratio $ASPECT_RATIO \# --video_length $NUM_FRAMES \# --seed $SEED \# --rewrite $REWRITE \# --sr $ENABLE_SR --save_pre_sr_video \# --pose_json_path $POSE_JSON_PATH \# --output_path $OUTPUT_PATH \# --model_path $MODEL_PATH \# --action_ckpt $AR_DISTILL_ACTION_MODEL_PATH \# --few_step true \# --num_inference_steps 4 \# --model_type 'ar'

📊 评估结果

HY-World 1.5 在多项量化指标上超越现有方法,包括不同视频时长的重建指标和人工评估结果。

ModelReal-timeShort-termLong-term
PSNRSSIMLPIPSR d i s t R_{dist}RdistT d i s t T_{dist}TdistPSNRSSIMLPIPSR d i s t R_{dist}RdistT d i s t T_{dist}Tdist
CameraCtrl17.930.5690.2980.0370.34110.090.2410.5490.7331.117
SEVA19.840.5980.3130.0470.22310.510.3010.5170.7211.893
ViewCrafter19.910.6170.3270.0290.5439.320.2710.6611.5733.051
Gen3C21.680.6350.2780.0240.47715.370.4310.4830.3570.979
VMem19.970.5870.3160.0480.21912.770.3350.5420.7481.547
Matrix-Game-2.017.260.5050.3830.2870.8439.570.2050.6312.1252.742
GameCraft21.050.6390.3410.1510.61710.090.2870.6142.4973.291
Ours (w/o Context Forcing)21.270.6690.2610.0330.15716.270.4250.4950.6110.991
Ours (full)21.920.7020.2470.0310.12118.940.5850.3710.3320.797

🎬 更多示例

https://github.com/user-attachments/assets/6aac8ad7-3c64-4342-887f-53b7100452ed

https://github.com/user-attachments/assets/531bf0ad-1fca-4d76-bb65-84701368926d

https://github.com/user-attachments/assets/f165f409-5a74-4e19-a32c-fc98d92259e1

📚 引用

@article{hyworld2025, title={HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency}, author={Team HunyuanWorld}, journal={arXiv preprint}, year={2025} } @article{worldplay2025, title={WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Model}, author={Wenqiang Sun and Haiyu Zhang and Haoyuan Wang and Junta Wu and Zehan Wang and Zhenwei Wang and Yunhong Wang and Jun Zhang and Tengfei Wang and Chunchao Guo}, year={2025}, journal={arXiv preprint} } @inproceedings{wang2025compass, title={WorldCompass: Reinforcement Learning for Long-Horizon World Models}, author={Zehan Wang and Tengfei Wang and Haiyu Zhang and Wenqiang Sun and Junta Wu and Haoyuan Wang and Zhenwei Wang and Hengshuang Zhao and Chunchao Guo and Zhou Zhao}, journal = {arXiv preprint}, year = 2025 }

🙏 致谢

我们要感谢 HunyuanWorld、HunyuanWorld-Mirror、HunyuanVideo 和 FastVideo 的杰出贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/30 18:13:52

5G网络瓶颈难解?Open-AutoGLM动态调优方案来了,响应速度提升80%

第一章&#xff1a;5G网络瓶颈难解&#xff1f;Open-AutoGLM动态调优方案来了&#xff0c;响应速度提升80%随着5G网络规模部署的加速&#xff0c;高并发、低延迟的应用场景对网络性能提出了更高要求。然而&#xff0c;传统静态资源配置难以应对突发流量与复杂业务负载&#xff…

作者头像 李华
网站建设 2026/4/25 21:22:35

Open-AutoGLM弹窗异常处理全方案(资深架构师亲授修复技巧)

第一章&#xff1a;Open-AutoGLM弹窗关闭失败修复在使用 Open-AutoGLM 框架开发自动化任务时&#xff0c;部分用户反馈在触发特定操作后&#xff0c;系统弹窗无法正常关闭&#xff0c;导致后续流程阻塞。该问题通常出现在异步任务执行完成后的 UI 状态更新阶段&#xff0c;根源…

作者头像 李华
网站建设 2026/5/1 10:58:35

6.2.在汇编层面,数据本身没有类型

文章目录**数据的类型由后续操作符决定****数据的类型由后续操作符决定****ADD指令&#xff1a;同时设置所有相关标志****类型决策点&#xff1a;标志检查指令****情况1&#xff1a;有符号整数类型****情况2&#xff1a;无符号整数类型****完整示例&#xff1a;同一数据&#x…

作者头像 李华
网站建设 2026/5/1 11:06:15

基于YOLOv11的石头剪刀布检测系统(YOLOv11深度学习+YOLO数据集+UI界面+登录注册界面+Python项目源码+模型)

一、项目介绍 本文提出了一种基于深度学习目标检测模型YOLOv11的石头剪刀布手势识别系统&#xff0c;能够实时检测并分类用户手势&#xff08;石头、剪刀、布&#xff09;。系统采用YOLOv11模型&#xff0c;结合高质量的自定义YOLO数据集&#xff08;包含训练集6,455张、验证集…

作者头像 李华
网站建设 2026/4/24 23:11:18

为什么顶级企业都在用Open-AutoGLM做设备协同?真相曝光

第一章&#xff1a;Open-AutoGLM 物联网设备联动控制Open-AutoGLM 是一个基于大语言模型的自动化控制框架&#xff0c;专为物联网&#xff08;IoT&#xff09;环境中的设备联动设计。它通过自然语言理解实现设备间的智能协同&#xff0c;支持跨平台、多协议的设备接入与指令编排…

作者头像 李华