news 2026/6/12 10:17:55

清华提出WorldFly:首个耦合世界模型与VLA的无人机导航方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
清华提出WorldFly:首个耦合世界模型与VLA的无人机导航方案

给无人机装上“预判大脑”

当下低空城市无人机导航正遭遇显著技术瓶颈:

目录

01 传统VLA模型的“短视”难题与破局思路

02 双分支耦合流匹配,实现视觉与动作协同推演

2.1 多模态统一编码

2.2 双分支网络分工与交互

2.3 训练目标设计

03 数据背后的能力与边界

3.1 核心实验据解读

3.2 指标的实际意义与局限性

3.3 消融实验结论

04 多条技术路线下的WorldFly定位

05 现存短板与未来演进方向

06 重构无人机导航的“决策逻辑”


楼宇林立形成“城市峡谷”,遮挡频发、视角急剧切换成为常态,传统VLA模型仅依靠历史画面直接输出动作,如同“走一步看一步”,缺乏对未来场景的预判能力,在陌生环境与长距离导航任务中极易失效。

针对这一行业痛点,清华大学团队推出WorldFly框架,这也是业内首个将世界模型与VLA架构深度结合的无人机导航方案。

该方案依托双分支耦合流匹配机制,同步完成未来画面预测与导航动作,搭配专门构建的城市峡谷穿越评测基准,在视角剧变、强遮挡场景中展现出远超现有模型的泛化能力,为空中具身智能的“预判能力”落地提供了全新技术路径。

01 传统VLA模型的“短视”难题与破局思路

近年来,OpenFly、Pi-0-UAV等无人机VLA模型逐步落地,实现了自然语言指令到飞行动作的端到端映射,摆脱了专业操控指令的限制,让无人机能够理解人类语义完成飞行任务。

但这类模型存在一个核心短板:本质属于反应式架构,所有动作仅基于历史和当前视觉观测生成,不会主动推演下一步乃至后续场景变化。在城市低空环境中,无人机转弯、穿行楼宇时画面会发生剧烈变化,视野被建筑遮挡后有效视觉信息中断,反应式模型会因信息断层做出错误决策,这也是当前无人机难以胜任复杂长时序导航的核心原因。

图|OpenFly总览

与此同时,自动驾驶、视频生成领域的世界模型已证明其场景预测价值,但过往世界模型大多采用“先预测画面、再生成动作”的串行架构,模块衔接松散,无法适配无人机高速实时控制的需求。

WorldFly的核心创新便在于打破这种割裂状态,不再将场景想象与动作规划分为前后两个步骤,而是采用双分支耦合架构,让画面预测与动作生成并行交互,用“脑中预判的未来场景”实时引导飞行决策。

此外,现有无人机评测数据集多聚焦开阔场景,难以模拟城市楼宇间的极端工况。为此团队同步搭建城市峡谷穿越基准,划分熟悉路口(TEST-EASY)与全新未知路口(TEST-HARD)两大测试集,分别验证模型常规表现与零样本泛化能力。

图|数据集轨迹、指令词长与词云分布图

02 双分支耦合流匹配,实现视觉与动作协同推演

图|WorldFly整体架构图

WorldFly整体以流匹配为基础,拆解为世界模型分支、动作专家分支两大并行模块,配合多模态编码与跨分支交互机制,联合生成未来视频与飞行动作。整套架构摒弃串行设计,两大分支共享时序噪声与语言指令,做到场景想象与动作规划同频同步。

2.1 多模态统一编码

模型输入分为历史视觉画面、自然语言指令两类。语言指令使用T5编码器编码,最大支持250个token,可解析长距离、多转弯的复杂导航指令;视觉帧通过LTX-Video的VAE编码器压缩至隐空间,在保留空间布局的同时降低计算开销。

为保证时序对齐,模型对未来视觉、动作分支使用同一时间步添加高斯噪声,确保画面推演与动作生成的进度保持一致。

2.2 双分支网络分工与交互

两个分支参数相互独立,网络隐藏维度做差异化设计,兼顾精度与推理速度。世界模型分支负责预判无人机执行动作后的第一视角画面,构建空中虚拟沙盘;动作专家分支将飞行指令编码为8维连续向量,最终映射为10类标准化基础飞行动作。

图|双分支耦合架构细节图

架构每隔固定层数设置双分支耦合块,两大分支先完成自注意力计算,再通过交叉注意力互通特征。动作分支可参考预判场景调整飞行策略,世界模型也能依据规划动作修正画面,形成双向闭环约束,这也是架构的核心设计。

2.3 训练目标设计

模型总损失由世界模型损失与动作损失加权求和构成,权重系数设为1,保证两个分支训练优先级均等。整套框架基于流匹配目标优化,学习从噪声还原真实画面与动作,支持端到端联合优化,降低工程部署难度。

03 数据背后的能力与边界

图|不同模型在两大测试集性能对比表

本次实验基于AirSim仿真平台开展,选取Pi-0-UAV、OpenFly、随机策略作为对照,采用导航误差(NE)、任务成功率(SR)、路径加权成功率(SPL)三大核心指标,从常规场景、未知场景两大维度完成评测。

3.1 核心实验据解读

在TEST-EASY(熟悉路口)中,OpenFly导航误差14.69米、任务成功率72%;WorldFly导航误差降至7.92米,成功率提升至87%,路径加权成功率达73.25%,预判能力有效减少飞行偏移。

在难度更高的TEST-HARD(全新未知路口),传统模型性能大幅下滑:OpenFly成功率仅16%,Pi-0-UAV低至10%;而WorldFly依旧保持31%的任务成功率,导航误差31.08米,综合性能接近OpenFly的两倍,充分证明世界模型对零样本泛化的提升作用。

图|不同路径长度下各模型成功率对比图

按照短、中、长路径进一步划分后可见,所有模型性能均随航程增加而衰减,但在长距离任务中,OpenFly任务成功率归零,World仍保留18.8%的完成率,体现出长时序推理优势。针对画面生成质量的测试结果如下:

图|世界模型画面预测质量指标表

数据显示,TEST-EASY与TEST-HARD场景下PSNR、SSIM、LPIPS指标平稳下降,模型在陌生场景依旧能生成结构连贯的画面。

3.2 指标的实际意义与局限性

导航误差、成功率直接对应无人机低空作业的落地安全性,米级误差就可能引发碰撞风险,WorldFly在常规场景中将误差缩减近一半,实用价值突出。零样本性能则决定模型能否快速适配不同城市航线,降低场景定制成本。

同时需要客观看待局限:所有实验均基于仿真环境,和真实场景的风扰、动态障碍物、复杂光照存在差距;且当前动作空间仅包含标准化基础指令,暂不支持连续变速、弧形飞行等复杂机动。

3.3 消融实验结论

图|双分支耦合模块消融实验结果表

团队通过移除双分支耦合块开展对照实验:去除该模块后,简单场景成功率从87%降至76%,未知复杂场景从31%暴跌至21%。这证明双向交互是架构核心,仅简单并行两个分支,无法发挥世界模型的预判价值。

04 多条技术路线下的WorldFly定位

当前无人机VLA技术主要分为三类:

  • 第一类是以OpenFly、Pi-0-UAV为代表的传统反应式VLA,轻量化易部署,但缺乏预判能力,复杂场景容错率低;
  • 第二类为串行式世界模型+VLA方案,预判能力强但推理延迟高,无法满足实时飞行要求。
  • WorldFly属于第三类并行耦合路线,融合前两类优势,解决了延迟与模块脱节问题。对比机器人领域的WorldVLA、VideoVLA等同类型模型,WorldFly专门针对无人机大视角切换、高速运动的特性优化,聚焦语言指令驱动的导航任务,落地指向性更强。

从行业趋势来看,世界模型正从通用视觉生成工具,转向具身任务专用模块。汽车、机械臂、无人机等不同载体,都会根据自身运动特征定制架构,通用大模型垂直细分已成行业主流方向。

05 现存短板与未来演进方向

首先是推理性能问题。实测在单张A100显卡上,模型单步推理耗时7.81秒,控制频率仅0.5Hz,无法支撑高速动态避障等强实时场景。后续可通过模型剪枝、知识蒸馏、隐空间压缩等轻量化方案,适配机载边缘设备。

其次是场景与动作覆盖不足。当前数据集仅包含静态建筑,未加入行人、飞鸟等动态障碍物,也未模拟大风、雾霾等复杂气象。同时离散化动作空间限制了飞行灵活性,扩充场景数据、优化动作设计是后续重点。

此外,仿真与现实存在域偏差,后续可采用“仿真预训练+真机微调”的虚实迁移方案,缩小两者差距,提升真实环境鲁棒性。

06 重构无人机导航的“决策逻辑”

WorldFly的核心价值,是把无人机从“见招拆招”的反应式决策,升级为“预判先行”的前瞻式决策。依托双分支耦合流匹配架构,它解决了世界模型与VLA融合过程中的延迟、脱节难题,搭配专属城市峡谷评测基准,为低空复杂环境导航提供了可行方案。

该工作填补了无人机领域世界模型+VLA一体化方案的空白,证明场景预判是突破传统VLA性能上限的关键。在低空经济快速发展的背景下,城市巡检、物流、应急救援等场景,都需要这类具备预判能力的无人机方案。

图|WorldFly联合视频与动作预测效果图

当然,算力开销、虚实差距、复杂场景适配等问题仍客观存在。世界模型与空中具身智能的结合尚处于早期阶段,WorldFly是一次有效探索。随着轻量化、虚实迁移技术迭代,这类方案有望逐步从仿真走向真实空域,成为低空经济规模化发展的重要支撑。

Ref

论文标题:WorldFly: A World-Model-Based Vision-Language-Action Model for UAV Navigation

论文链接:https://arxiv.org/pdf/2606.06147

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/12 10:10:57

科学计算中的数值稳定性:浮点精度与条件数对计算结果的影响

科学计算中的数值稳定性:浮点精度与条件数对计算结果的影响一、0.1 0.2 ≠ 0.3 的工程后果:浮点精度的隐性风险 在 Python 中执行 0.1 0.2,结果是 0.30000000000000004 而非 0.3。这个经典的浮点精度问题在科学计算中不是"小数点后几位…

作者头像 李华
网站建设 2026/6/12 10:09:21

告别Halcon窗口阻塞!用C#和ActiViz(VTK)打造丝滑的三维点云交互界面

告别Halcon窗口阻塞!用C#和ActiViz(VTK)打造丝滑的三维点云交互界面在工业检测和计算机视觉领域,三维点云数据的可视化一直是开发者面临的挑战之一。许多开发者习惯使用Halcon进行图像处理,但当涉及到三维点云交互时&a…

作者头像 李华
网站建设 2026/6/12 10:07:51

【RT-DETR实战】194、加密与混淆:保护模型知识产权的最后一道防线

上周调试一个部署问题,客户反馈模型在边缘设备上跑得好好的,换了个同型号设备突然就崩了。 查了三天,最后发现是有人把模型文件拖出来,改了几层参数又塞回去,结果前向传播时张量维度对不上。 这件事让我意识到——模型保护不是可选项,而是交付时必须上锁的保险箱。 模…

作者头像 李华
网站建设 2026/6/12 10:06:03

遗传算法工业级优化:破解种群多样性坍塌与自适应设计

1. 项目概述:从“会跑”到“跑得明白”的遗传算法进阶实践“遗传算法”这四个字,我第一次在实验室黑板上看到时,导师只写了三行公式,底下画了个箭头,写着“模拟自然选择”。当时觉得玄乎——代码怎么学得会生物进化&am…

作者头像 李华
网站建设 2026/6/12 10:02:51

STM32CubeIDE项目实战:用AS608指纹模块做个智能门锁原型(附完整工程)

STM32CubeIDE实战:基于AS608指纹模块的智能门锁原型开发在智能家居和安防领域,指纹识别技术因其安全性和便捷性已成为身份验证的主流方案之一。AS608光学指纹模块作为性价比较高的解决方案,配合STM32系列微控制器,能够快速构建可靠…

作者头像 李华