「给无人机装上“预判大脑”」
当下低空城市无人机导航正遭遇显著技术瓶颈:
目录
01 传统VLA模型的“短视”难题与破局思路
02 双分支耦合流匹配,实现视觉与动作协同推演
2.1 多模态统一编码
2.2 双分支网络分工与交互
2.3 训练目标设计
03 数据背后的能力与边界
3.1 核心实验据解读
3.2 指标的实际意义与局限性
3.3 消融实验结论
04 多条技术路线下的WorldFly定位
05 现存短板与未来演进方向
06 重构无人机导航的“决策逻辑”
楼宇林立形成“城市峡谷”,遮挡频发、视角急剧切换成为常态,传统VLA模型仅依靠历史画面直接输出动作,如同“走一步看一步”,缺乏对未来场景的预判能力,在陌生环境与长距离导航任务中极易失效。
针对这一行业痛点,清华大学团队推出WorldFly框架,这也是业内首个将世界模型与VLA架构深度结合的无人机导航方案。
该方案依托双分支耦合流匹配机制,同步完成未来画面预测与导航动作,搭配专门构建的城市峡谷穿越评测基准,在视角剧变、强遮挡场景中展现出远超现有模型的泛化能力,为空中具身智能的“预判能力”落地提供了全新技术路径。
01 传统VLA模型的“短视”难题与破局思路
近年来,OpenFly、Pi-0-UAV等无人机VLA模型逐步落地,实现了自然语言指令到飞行动作的端到端映射,摆脱了专业操控指令的限制,让无人机能够理解人类语义完成飞行任务。
但这类模型存在一个核心短板:本质属于反应式架构,所有动作仅基于历史和当前视觉观测生成,不会主动推演下一步乃至后续场景变化。在城市低空环境中,无人机转弯、穿行楼宇时画面会发生剧烈变化,视野被建筑遮挡后有效视觉信息中断,反应式模型会因信息断层做出错误决策,这也是当前无人机难以胜任复杂长时序导航的核心原因。
图|OpenFly总览
与此同时,自动驾驶、视频生成领域的世界模型已证明其场景预测价值,但过往世界模型大多采用“先预测画面、再生成动作”的串行架构,模块衔接松散,无法适配无人机高速实时控制的需求。
WorldFly的核心创新便在于打破这种割裂状态,不再将场景想象与动作规划分为前后两个步骤,而是采用双分支耦合架构,让画面预测与动作生成并行交互,用“脑中预判的未来场景”实时引导飞行决策。
此外,现有无人机评测数据集多聚焦开阔场景,难以模拟城市楼宇间的极端工况。为此团队同步搭建城市峡谷穿越基准,划分熟悉路口(TEST-EASY)与全新未知路口(TEST-HARD)两大测试集,分别验证模型常规表现与零样本泛化能力。
图|数据集轨迹、指令词长与词云分布图
02 双分支耦合流匹配,实现视觉与动作协同推演
图|WorldFly整体架构图
WorldFly整体以流匹配为基础,拆解为世界模型分支、动作专家分支两大并行模块,配合多模态编码与跨分支交互机制,联合生成未来视频与飞行动作。整套架构摒弃串行设计,两大分支共享时序噪声与语言指令,做到场景想象与动作规划同频同步。
2.1 多模态统一编码
模型输入分为历史视觉画面、自然语言指令两类。语言指令使用T5编码器编码,最大支持250个token,可解析长距离、多转弯的复杂导航指令;视觉帧通过LTX-Video的VAE编码器压缩至隐空间,在保留空间布局的同时降低计算开销。
为保证时序对齐,模型对未来视觉、动作分支使用同一时间步添加高斯噪声,确保画面推演与动作生成的进度保持一致。
2.2 双分支网络分工与交互
两个分支参数相互独立,网络隐藏维度做差异化设计,兼顾精度与推理速度。世界模型分支负责预判无人机执行动作后的第一视角画面,构建空中虚拟沙盘;动作专家分支将飞行指令编码为8维连续向量,最终映射为10类标准化基础飞行动作。
图|双分支耦合架构细节图
架构每隔固定层数设置双分支耦合块,两大分支先完成自注意力计算,再通过交叉注意力互通特征。动作分支可参考预判场景调整飞行策略,世界模型也能依据规划动作修正画面,形成双向闭环约束,这也是架构的核心设计。
2.3 训练目标设计
模型总损失由世界模型损失与动作损失加权求和构成,权重系数设为1,保证两个分支训练优先级均等。整套框架基于流匹配目标优化,学习从噪声还原真实画面与动作,支持端到端联合优化,降低工程部署难度。
03 数据背后的能力与边界
图|不同模型在两大测试集性能对比表
本次实验基于AirSim仿真平台开展,选取Pi-0-UAV、OpenFly、随机策略作为对照,采用导航误差(NE)、任务成功率(SR)、路径加权成功率(SPL)三大核心指标,从常规场景、未知场景两大维度完成评测。
3.1 核心实验据解读
在TEST-EASY(熟悉路口)中,OpenFly导航误差14.69米、任务成功率72%;WorldFly导航误差降至7.92米,成功率提升至87%,路径加权成功率达73.25%,预判能力有效减少飞行偏移。
在难度更高的TEST-HARD(全新未知路口),传统模型性能大幅下滑:OpenFly成功率仅16%,Pi-0-UAV低至10%;而WorldFly依旧保持31%的任务成功率,导航误差31.08米,综合性能接近OpenFly的两倍,充分证明世界模型对零样本泛化的提升作用。
图|不同路径长度下各模型成功率对比图
按照短、中、长路径进一步划分后可见,所有模型性能均随航程增加而衰减,但在长距离任务中,OpenFly任务成功率归零,World仍保留18.8%的完成率,体现出长时序推理优势。针对画面生成质量的测试结果如下:
图|世界模型画面预测质量指标表
数据显示,TEST-EASY与TEST-HARD场景下PSNR、SSIM、LPIPS指标平稳下降,模型在陌生场景依旧能生成结构连贯的画面。
3.2 指标的实际意义与局限性
导航误差、成功率直接对应无人机低空作业的落地安全性,米级误差就可能引发碰撞风险,WorldFly在常规场景中将误差缩减近一半,实用价值突出。零样本性能则决定模型能否快速适配不同城市航线,降低场景定制成本。
同时需要客观看待局限:所有实验均基于仿真环境,和真实场景的风扰、动态障碍物、复杂光照存在差距;且当前动作空间仅包含标准化基础指令,暂不支持连续变速、弧形飞行等复杂机动。
3.3 消融实验结论
图|双分支耦合模块消融实验结果表
团队通过移除双分支耦合块开展对照实验:去除该模块后,简单场景成功率从87%降至76%,未知复杂场景从31%暴跌至21%。这证明双向交互是架构核心,仅简单并行两个分支,无法发挥世界模型的预判价值。
04 多条技术路线下的WorldFly定位
当前无人机VLA技术主要分为三类:
- 第一类是以OpenFly、Pi-0-UAV为代表的传统反应式VLA,轻量化易部署,但缺乏预判能力,复杂场景容错率低;
- 第二类为串行式世界模型+VLA方案,预判能力强但推理延迟高,无法满足实时飞行要求。
- WorldFly属于第三类并行耦合路线,融合前两类优势,解决了延迟与模块脱节问题。对比机器人领域的WorldVLA、VideoVLA等同类型模型,WorldFly专门针对无人机大视角切换、高速运动的特性优化,聚焦语言指令驱动的导航任务,落地指向性更强。
从行业趋势来看,世界模型正从通用视觉生成工具,转向具身任务专用模块。汽车、机械臂、无人机等不同载体,都会根据自身运动特征定制架构,通用大模型垂直细分已成行业主流方向。
05 现存短板与未来演进方向
首先是推理性能问题。实测在单张A100显卡上,模型单步推理耗时7.81秒,控制频率仅0.5Hz,无法支撑高速动态避障等强实时场景。后续可通过模型剪枝、知识蒸馏、隐空间压缩等轻量化方案,适配机载边缘设备。
其次是场景与动作覆盖不足。当前数据集仅包含静态建筑,未加入行人、飞鸟等动态障碍物,也未模拟大风、雾霾等复杂气象。同时离散化动作空间限制了飞行灵活性,扩充场景数据、优化动作设计是后续重点。
此外,仿真与现实存在域偏差,后续可采用“仿真预训练+真机微调”的虚实迁移方案,缩小两者差距,提升真实环境鲁棒性。
06 重构无人机导航的“决策逻辑”
WorldFly的核心价值,是把无人机从“见招拆招”的反应式决策,升级为“预判先行”的前瞻式决策。依托双分支耦合流匹配架构,它解决了世界模型与VLA融合过程中的延迟、脱节难题,搭配专属城市峡谷评测基准,为低空复杂环境导航提供了可行方案。
该工作填补了无人机领域世界模型+VLA一体化方案的空白,证明场景预判是突破传统VLA性能上限的关键。在低空经济快速发展的背景下,城市巡检、物流、应急救援等场景,都需要这类具备预判能力的无人机方案。
图|WorldFly联合视频与动作预测效果图
当然,算力开销、虚实差距、复杂场景适配等问题仍客观存在。世界模型与空中具身智能的结合尚处于早期阶段,WorldFly是一次有效探索。随着轻量化、虚实迁移技术迭代,这类方案有望逐步从仿真走向真实空域,成为低空经济规模化发展的重要支撑。
Ref
论文标题:WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation
论文链接:https://arxiv.org/pdf/2606.06147