“态势感知”与“势态知感”的缺失或没有形成,是当前人形机器人与自动驾驶系统共同面临的核心瓶颈,而不仅仅是技术堆栈上的某个局部短板。
一、为什么“态势感知”是瓶颈?
态势感知(Situation Awareness)是系统对环境状态的理解,包括“现在发生了什么”、“未来可能如何演化”。势态知感(Sense of Potential)则是更高阶的认知能力,能感知“尚未发生但可能发生的势”,即对潜在演化趋势的直觉性预判。前者是“看见”,后者是“看懂+预感”。
二、两者共同卡在哪?
感知输入阶段,自动驾驶是激光雷达+摄像头+高精地图,结构化但有限;而人形机器人是多模态感知(视觉+听觉+触觉),非结构化、高噪声。
态势建模维度,自动驾驶依赖预测模型(如轨迹预测),但对“意图”理解弱;人形机器人面对人类社会的隐性规则(如社交空间、意图暗示)几乎无从下手。
势态知感阶段,自动驾驶无法预判“前车司机是否可能突然情绪化变道” ;人形机器人无法预判“人类是否即将让路、是否生气、是否撒谎”。
反馈闭环,自动驾驶决策链短,容错低(撞了就完了);人形机器人决策链长,需持续互动,但无“社会直觉”。
三、关键难点:从“感知”到“知感”的跃迁
当前AI系统的感知是“统计相关性”,而知感需要“因果+意图+演化”。如:
自动驾驶看到行人站在路边,知道“他在路边”,但不知道“他是否准备冲出来”;
人形机器人看到人类皱眉,知道“他在皱眉”,但不知道“他是生气还是困惑”,更不知道“下一步是否会推开我”。
四、突破路径:从“数据驱动”到“模型驱动+意图建模”
方向 说明 代表研究
可以从因果建模角度,即从“相关性”走向“因果性”,预判演化,如Judea Pearl 的因果推断、反事实推理;
也可从意图识别方向展开,对人类/他者意图的建模,而非仅轨迹预测,心智理论(Theory of Mind)模型,如 ToMNET、DeepMind 的 MAIL;
正在火热进行中的世界模型研究,构建内部模拟器,推演“未发生但可能”的演化,如Yann LeCun提出的JEPA、Meta 的V-JEPA;
还有具身认知,通过身体与环境的持续互动,形成“势态直觉”,如人形机器人通过长期驻留在人类环境中,累积社会-物理直觉;
同时,可以试试人机环境系统智能,把态、势、感、知进行实时性的排列组合,如事实计算+价值算计双向协同模型……
五、一句话总结
“态势感知”是看见现在,“势态知感”是预见未来;而人形机器人与自动辅助驾驶中的AI目前只能“看见”,还无法“预感”。
---
未来我们可以一起深入探讨某个具体场景(比如:人形机器人在地铁车厢中如何“感知”一个人是否愿意让座),我们可以一起拆解它到底卡在哪一层。