清华提出WorldFly：首个耦合世界模型与VLA的无人机导航方案-洪萨配资

「给无人机装上“预判大脑”」

当下低空城市无人机导航正遭遇显著技术瓶颈：

01 传统VLA模型的“短视”难题与破局思路

02 双分支耦合流匹配，实现视觉与动作协同推演

2.1 多模态统一编码

2.2 双分支网络分工与交互

2.3 训练目标设计

03 数据背后的能力与边界

3.1 核心实验据解读

3.2 指标的实际意义与局限性

3.3 消融实验结论

04 多条技术路线下的WorldFly定位

05 现存短板与未来演进方向

06 重构无人机导航的“决策逻辑”

楼宇林立形成“城市峡谷”，遮挡频发、视角急剧切换成为常态，传统VLA模型仅依靠历史画面直接输出动作，如同“走一步看一步”，缺乏对未来场景的预判能力，在陌生环境与长距离导航任务中极易失效。

针对这一行业痛点，清华大学团队推出WorldFly框架，这也是业内首个将世界模型与VLA架构深度结合的无人机导航方案。

该方案依托双分支耦合流匹配机制，同步完成未来画面预测与导航动作，搭配专门构建的城市峡谷穿越评测基准，在视角剧变、强遮挡场景中展现出远超现有模型的泛化能力，为空中具身智能的“预判能力”落地提供了全新技术路径。

01 传统VLA模型的“短视”难题与破局思路

近年来，OpenFly、Pi-0-UAV等无人机VLA模型逐步落地，实现了自然语言指令到飞行动作的端到端映射，摆脱了专业操控指令的限制，让无人机能够理解人类语义完成飞行任务。

但这类模型存在一个核心短板：本质属于反应式架构，所有动作仅基于历史和当前视觉观测生成，不会主动推演下一步乃至后续场景变化。在城市低空环境中，无人机转弯、穿行楼宇时画面会发生剧烈变化，视野被建筑遮挡后有效视觉信息中断，反应式模型会因信息断层做出错误决策，这也是当前无人机难以胜任复杂长时序导航的核心原因。

图｜OpenFly总览

与此同时，自动驾驶、视频生成领域的世界模型已证明其场景预测价值，但过往世界模型大多采用“先预测画面、再生成动作”的串行架构，模块衔接松散，无法适配无人机高速实时控制的需求。

WorldFly的核心创新便在于打破这种割裂状态，不再将场景想象与动作规划分为前后两个步骤，而是采用双分支耦合架构，让画面预测与动作生成并行交互，用“脑中预判的未来场景”实时引导飞行决策。

此外，现有无人机评测数据集多聚焦开阔场景，难以模拟城市楼宇间的极端工况。为此团队同步搭建城市峡谷穿越基准，划分熟悉路口（TEST-EASY）与全新未知路口（TEST-HARD）两大测试集，分别验证模型常规表现与零样本泛化能力。

图｜数据集轨迹、指令词长与词云分布图

02 双分支耦合流匹配，实现视觉与动作协同推演

图｜WorldFly整体架构图

WorldFly整体以流匹配为基础，拆解为世界模型分支、动作专家分支两大并行模块，配合多模态编码与跨分支交互机制，联合生成未来视频与飞行动作。整套架构摒弃串行设计，两大分支共享时序噪声与语言指令，做到场景想象与动作规划同频同步。

2.1 多模态统一编码

模型输入分为历史视觉画面、自然语言指令两类。语言指令使用T5编码器编码，最大支持250个token，可解析长距离、多转弯的复杂导航指令；视觉帧通过LTX-Video的VAE编码器压缩至隐空间，在保留空间布局的同时降低计算开销。

为保证时序对齐，模型对未来视觉、动作分支使用同一时间步添加高斯噪声，确保画面推演与动作生成的进度保持一致。

2.2 双分支网络分工与交互

两个分支参数相互独立，网络隐藏维度做差异化设计，兼顾精度与推理速度。世界模型分支负责预判无人机执行动作后的第一视角画面，构建空中虚拟沙盘；动作专家分支将飞行指令编码为8维连续向量，最终映射为10类标准化基础飞行动作。

图｜双分支耦合架构细节图

架构每隔固定层数设置双分支耦合块，两大分支先完成自注意力计算，再通过交叉注意力互通特征。动作分支可参考预判场景调整飞行策略，世界模型也能依据规划动作修正画面，形成双向闭环约束，这也是架构的核心设计。

2.3 训练目标设计

模型总损失由世界模型损失与动作损失加权求和构成，权重系数设为1，保证两个分支训练优先级均等。整套框架基于流匹配目标优化，学习从噪声还原真实画面与动作，支持端到端联合优化，降低工程部署难度。

03 数据背后的能力与边界

图｜不同模型在两大测试集性能对比表

本次实验基于AirSim仿真平台开展，选取Pi-0-UAV、OpenFly、随机策略作为对照，采用导航误差（NE）、任务成功率（SR）、路径加权成功率（SPL）三大核心指标，从常规场景、未知场景两大维度完成评测。

3.1 核心实验据解读

在TEST-EASY（熟悉路口）中，OpenFly导航误差14.69米、任务成功率72%；WorldFly导航误差降至7.92米，成功率提升至87%，路径加权成功率达73.25%，预判能力有效减少飞行偏移。

在难度更高的TEST-HARD（全新未知路口），传统模型性能大幅下滑：OpenFly成功率仅16%，Pi-0-UAV低至10%；而WorldFly依旧保持31%的任务成功率，导航误差31.08米，综合性能接近OpenFly的两倍，充分证明世界模型对零样本泛化的提升作用。

图｜不同路径长度下各模型成功率对比图

按照短、中、长路径进一步划分后可见，所有模型性能均随航程增加而衰减，但在长距离任务中，OpenFly任务成功率归零，World仍保留18.8%的完成率，体现出长时序推理优势。针对画面生成质量的测试结果如下：

图｜世界模型画面预测质量指标表

数据显示，TEST-EASY与TEST-HARD场景下PSNR、SSIM、LPIPS指标平稳下降，模型在陌生场景依旧能生成结构连贯的画面。

3.2 指标的实际意义与局限性

导航误差、成功率直接对应无人机低空作业的落地安全性，米级误差就可能引发碰撞风险，WorldFly在常规场景中将误差缩减近一半，实用价值突出。零样本性能则决定模型能否快速适配不同城市航线，降低场景定制成本。

同时需要客观看待局限：所有实验均基于仿真环境，和真实场景的风扰、动态障碍物、复杂光照存在差距；且当前动作空间仅包含标准化基础指令，暂不支持连续变速、弧形飞行等复杂机动。

3.3 消融实验结论

图｜双分支耦合模块消融实验结果表

团队通过移除双分支耦合块开展对照实验：去除该模块后，简单场景成功率从87%降至76%，未知复杂场景从31%暴跌至21%。这证明双向交互是架构核心，仅简单并行两个分支，无法发挥世界模型的预判价值。

04 多条技术路线下的WorldFly定位

当前无人机VLA技术主要分为三类：

第一类是以OpenFly、Pi-0-UAV为代表的传统反应式VLA，轻量化易部署，但缺乏预判能力，复杂场景容错率低；
第二类为串行式世界模型+VLA方案，预判能力强但推理延迟高，无法满足实时飞行要求。
WorldFly属于第三类并行耦合路线，融合前两类优势，解决了延迟与模块脱节问题。对比机器人领域的WorldVLA、VideoVLA等同类型模型，WorldFly专门针对无人机大视角切换、高速运动的特性优化，聚焦语言指令驱动的导航任务，落地指向性更强。

从行业趋势来看，世界模型正从通用视觉生成工具，转向具身任务专用模块。汽车、机械臂、无人机等不同载体，都会根据自身运动特征定制架构，通用大模型垂直细分已成行业主流方向。

05 现存短板与未来演进方向

首先是推理性能问题。实测在单张A100显卡上，模型单步推理耗时7.81秒，控制频率仅0.5Hz，无法支撑高速动态避障等强实时场景。后续可通过模型剪枝、知识蒸馏、隐空间压缩等轻量化方案，适配机载边缘设备。

其次是场景与动作覆盖不足。当前数据集仅包含静态建筑，未加入行人、飞鸟等动态障碍物，也未模拟大风、雾霾等复杂气象。同时离散化动作空间限制了飞行灵活性，扩充场景数据、优化动作设计是后续重点。

此外，仿真与现实存在域偏差，后续可采用“仿真预训练+真机微调”的虚实迁移方案，缩小两者差距，提升真实环境鲁棒性。

06 重构无人机导航的“决策逻辑”

WorldFly的核心价值，是把无人机从“见招拆招”的反应式决策，升级为“预判先行”的前瞻式决策。依托双分支耦合流匹配架构，它解决了世界模型与VLA融合过程中的延迟、脱节难题，搭配专属城市峡谷评测基准，为低空复杂环境导航提供了可行方案。

该工作填补了无人机领域世界模型+VLA一体化方案的空白，证明场景预判是突破传统VLA性能上限的关键。在低空经济快速发展的背景下，城市巡检、物流、应急救援等场景，都需要这类具备预判能力的无人机方案。

图｜WorldFly联合视频与动作预测效果图

当然，算力开销、虚实差距、复杂场景适配等问题仍客观存在。世界模型与空中具身智能的结合尚处于早期阶段，WorldFly是一次有效探索。随着轻量化、虚实迁移技术迭代，这类方案有望逐步从仿真走向真实空域，成为低空经济规模化发展的重要支撑。

Ref

论文标题：WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation

论文链接：https://arxiv.org/pdf/2606.06147

清华提出WorldFly：首个耦合世界模型与VLA的无人机导航方案

01 传统VLA模型的“短视”难题与破局思路

02 双分支耦合流匹配，实现视觉与动作协同推演

2.1 多模态统一编码

2.2 双分支网络分工与交互

2.3 训练目标设计

03 数据背后的能力与边界

3.1 核心实验据解读

3.2 指标的实际意义与局限性

3.3 消融实验结论

04 多条技术路线下的WorldFly定位

05 现存短板与未来演进方向

06 重构无人机导航的“决策逻辑”

VS Code下开箱即用的wxWidgets 3.1.4跨平台GUI开发模板（Win/Linux/macOS全预配）

科学计算中的数值稳定性：浮点精度与条件数对计算结果的影响

告别Halcon窗口阻塞！用C#和ActiViz（VTK）打造丝滑的三维点云交互界面

【RT-DETR实战】194、加密与混淆：保护模型知识产权的最后一道防线

遗传算法工业级优化：破解种群多样性坍塌与自适应设计

STM32CubeIDE项目实战：用AS608指纹模块做个智能门锁原型（附完整工程）