1. 项目概述:当机器人学会“感知”世界
在机器人技术领域,让机械臂稳定抓取并识别一个物体,听起来像是基础操作,但背后却是一个极其复杂的多模态感知问题。传统的机器人视觉系统依赖高帧率摄像头,配合强大的GPU进行图像处理,虽然有效,但功耗高、延迟大,尤其在处理动态、非结构化的真实环境时,往往显得笨拙且耗能。这就好比让人蒙着眼睛去摸一个装满水的杯子,仅凭触觉判断杯子的材质和水量,难度极大;但如果能同时“看”到杯子,感知过程就会变得直观而高效。
新加坡国立大学的研究团队近期展示的工作,正是朝着这个“高效多模态感知”的目标迈进了一大步。他们通过神经形态传感器融合技术,让机器人同时具备了类人的视觉和触觉,不仅能抓取物体,还能在抓取的瞬间识别出它是什么、里面装了多少东西。这项工作的核心价值,不在于使用了多么昂贵的硬件,而在于其背后的设计哲学:模仿生物神经系统的运作方式,用事件驱动、脉冲编码的方式处理传感器信息,实现了惊人的能效提升。根据论文数据,在英特尔Loihi神经形态芯片上运行,其能效比传统GPU方案高出50倍,而在后续优化中,甚至达到了惊人的1900倍。这不仅仅是实验室里的数字游戏,它指向了一个未来:在功耗严格受限的边缘设备(如移动机器人、可穿戴设备)上,实现实时、鲁棒的环境感知与交互成为可能。
2. 神经形态工程的核心思想:从“帧”到“事件”的范式转移
要理解这项工作的精妙之处,首先得抛开我们对传统计算机和传感器的固有认知。我们习惯了摄像头每秒输出30或60帧图像,每一帧都包含整个场景的所有像素信息,无论场景是否变化。这种“帧驱动”的模式,导致了大量冗余数据的产生和处理,是功耗的主要来源。
2.1 生物启发的感知原理
神经形态工程的核心灵感来源于生物神经系统。我们的眼睛和皮肤并不以固定的频率向大脑“汇报”全局状态。相反,它们只在感知到变化(即“事件”)时才产生信号(神经脉冲)。例如,当你的手指触摸到一个表面,只有压力发生变化的触觉感受器会发出脉冲;当一只飞鸟掠过天空,只有视网膜上对应飞鸟移动轨迹的感光细胞会产生信号。这种“事件驱动”的通信方式极其高效,因为它只传输必要的信息。
新加坡国立大学团队将这一原理应用到了机器人感知上。他们使用的Prophesee事件相机就是一种神经形态视觉传感器。它没有“帧”的概念,每个像素独立工作,只在检测到亮度变化超过阈值时,异步地输出一个事件(包括像素位置、时间戳和亮度变化极性)。这意味着在静态场景下,它几乎不产生数据;一旦有物体运动或光线变化,数据流才会涌现。这种特性非常适合机器人抓取这类动态、需要快速反应的任务。
2.2 脉冲神经网络:处理事件的“大脑”
有了事件流数据,就需要一个能高效处理它们的“大脑”。传统的深度神经网络(如CNN)处理的是稠密的、规则的数据阵列(如图像帧),与事件流的稀疏、异步特性格格不入。这就需要脉冲神经网络。
SNN是第三代神经网络模型,其神经元模型更接近生物神经元。它接收和处理的是离散的脉冲序列(spike),神经元内部存在膜电位,只有累积的输入超过阈值时才会发放一个脉冲。这种运作方式天然适合处理异步事件流。在Loihi这样的神经形态芯片上,SNN的运算被映射到专门的硬件电路中,脉冲的传递和神经元状态的更新以极低的功耗并行进行,这正是能效获得数量级提升的根本原因。
注意:从传统深度学习转向SNN需要思维转换。SNN的训练更为复杂,常用的方法包括将训练好的ANN转换为SNN,或者使用基于脉冲时序的可微学习算法(如Surrogate Gradient)。团队在研究中采用了近似反向传播的方法来训练他们的SNN模型,这是一个实践中的关键技巧。
3. 触觉感知的革命:ACES电子皮肤与NeuTouch指尖
视觉提供了物体的外形、位置和部分物理特性(如透明容器的液面),但要稳健抓取,尤其是判断抓握力和检测滑动,触觉不可或缺。团队在触觉传感上的创新,同样深刻体现了神经形态思想。
3.1 NeuTouch指尖的物理结构
他们开发的NeuTouch触觉指尖是一个微型化的集成系统:
- 传感层:核心是一个由39个“触觉像素”(Taxel)组成的阵列。每个Taxel基于石墨烯压阻层。石墨烯因其出色的电学性能和机械柔韧性,能灵敏地将微小的压力变化转化为电阻变化。
- 仿生结构:传感层上方覆盖着一层名为Ecoflex的人工皮肤。这种硅胶材料不仅保护传感器,其弹性还能放大机械刺激,类似于我们皮肤真皮层的作用,提高了灵敏度。
- 支撑骨架:下方是3D打印的“骨骼”结构,为整个指尖提供机械支撑和形状定义,使其可以方便地安装到各种机器人夹爪上。
这个设计本身已经是一个优秀的触觉传感器,但真正的突破在于其信号读取方式。
3.2 异步编码电子皮肤:单线传输的奥秘
传统的传感器阵列读取面临一个经典难题:布线复杂度。对于有成千上万个触点的电子皮肤,如果每个传感器都独立连线(点对点),或者采用矩阵扫描(行列寻址),都会导致线束庞杂、可靠性降低(一处损坏影响一片)、读取速度受限。
Benjamin Tee团队提出的异步编码电子皮肤(ACES)协议,巧妙地解决了这个问题。其核心思想是多对一、异步、编码通信。
- 异步事件:每个Taxel独立工作,仅当感受到的压力变化超过阈值时,才被“激活”,产生一个信号事件。没有全局时钟同步,完全由物理世界的变化驱动。
- 唯一脉冲编码:每个Taxel被分配一个独特的、由一系列正负脉冲组成的“身份证”编码。当它被激活时,就发出这个特定的脉冲序列。
- 单线复用:所有Taxel的输出都连接到同一根导线上。由于事件是稀疏且异步发生的,不同Taxel发出的编码脉冲序列在时间上大概率不会完全重叠。在接收端,通过信号处理算法,可以从这根混合信号线中,分离和解码出各个Taxel独立的脉冲序列。
这种方式带来了巨大优势:极高的鲁棒性。即使电子皮肤局部被切割或损坏,只要连接接收器的那根主线不断,其他完好的传感器依然可以正常工作。这为制造大面积、可拉伸、耐损伤的机器人皮肤铺平了道路。
4. 视觉-触觉融合的实操实现与模型训练
有了事件视觉和异步触觉这两大“利器”,下一步就是让它们协同工作。团队的研究展示了一个完整的闭环:从传感器数据融合,到SNN模型训练,再到在神经形态芯片上部署并完成机器人抓取任务。
4.1 数据采集与数据集构建
研究的一个宝贵贡献是创建并开源了多模态事件视觉-触觉数据集。他们让装备了Prophesee相机和NeuTouch指尖的机器人,去抓取多种不同物体(如易拉罐、塑料瓶、纸盒),这些物体有的空,有的装有不同重量的液体。
- 视觉事件流:事件相机记录抓取过程中物体的外观、变形和运动。
- 触觉事件流:NeuTouch指尖记录抓握时压力分布的动态变化。
- 同步与标注:两种异构的、异步的事件流需要精确的时间同步。每个数据样本都标注了物体类别(如“可乐罐”)和重量(精确到克)。
这个数据集对于社区开发更先进的融合学习算法至关重要。在实际操作中,构建这样的数据集需要精密的标定和同步系统,确保微秒级的时间对齐,这是获得高质量模型的前提。
4.2 脉冲图神经网络模型:TactileSGNet
团队为处理触觉数据专门设计了一个名为TactileSGNet的脉冲图神经网络。为什么用图网络(GNN)?因为触觉Taxel阵列本质上是一个图结构——每个Taxel是一个节点,相邻Taxel之间的空间关系可以定义为边。SNN处理脉冲,GNN处理图结构,TactileSGNet将两者结合,能有效地捕捉触觉事件在空间和时间上的关联性。
对于视觉-触觉融合,他们采用了早期融合策略。即在输入层或较低的层次,就将视觉事件流和触觉事件流合并,输入到一个更大的SNN中进行处理。这种策略允许网络在特征提取的最初阶段就学习两种模态之间的关联,对于需要快速反应的任务(如滑移检测)尤为有利。
4.3 训练与部署工作流
- 模型训练:由于SNN直接训练的计算成本较高,他们很可能采用了在GPU上使用模拟SNN神经元或可微分近似的方法进行训练。训练目标是让网络根据输入的融合事件流,输出物体的类别和重量估计。
- 模型转换与部署:训练好的网络模型被转换为适合在英特尔Loihi神经形态芯片上运行的格式。Loihi芯片通过其专用的“神经核心”来模拟SNN,实现极低功耗的推理。
- 机器人闭环控制:部署了模型的Loihi芯片与机器人控制器连接。在抓取任务中,实时产生的事件流输入芯片,芯片输出识别和滑移检测结果,机器人系统据此调整抓握力,形成一个感知-决策-执行的闭环。
5. 性能解析:为何融合感知带来质变
论文中的实验数据清晰地揭示了视觉-触觉融合的价值,这不仅仅是1+1=2的叠加,而是在关键能力上产生了质的飞跃。
5.1 物体识别与重量估计
单独使用事件视觉,机器人已经能取得不错的物体分类效果。一个有趣的发现是,对于透明或半透明的容器(如实验中的豆奶盒),视觉事件流竟然能一定程度上“看到”重量。这是因为液体重量会导致容器壁产生微小的形变,这种形变在事件相机对边缘变化的敏锐捕捉下,成为了可区分的特征。
然而,加入触觉数据后,分类准确率得到了进一步提升。触觉提供了视觉无法直接获取的表面纹理、硬度和精确的压力分布信息。更重要的是,对于重量估计,触觉提供了最直接的力学反馈。融合模型能够在抓取动作完成的极短时间内(远少于1秒),同时给出“这是豆奶盒”和“它重约320克”的判断,误差控制在30克以内。
5.2 滑移检测:融合感知的杀手锏应用
最能体现融合优势的任务是滑移检测。实验中,机器人被设定以一个稍显不足的力抓取物体,物体因此会缓慢下滑。
- 单独触觉:当滑移开始时,指尖的压力分布会发生特定模式的动态变化,触觉传感器能检测到,但信号可能较弱或存在干扰。
- 单独视觉:事件相机能看到物体相对于指尖的微小位移。
- 融合感知:如图2所示,当结合两者时,网络用于判断“正在滑移”的置信度指标——加权脉冲计数——在滑移发生极早期(约0.03秒)就出现了显著上升。这个指标是SNN内部神经元活动的一个加权和,其快速上升意味着网络更早、更确定地识别出了滑移事件。
加权脉冲计数的设计是另一个亮点。它鼓励SNN在输入脉冲序列的早期就做出“决定”,而不是等到所有数据都处理完。这直接缩短了系统的反应延迟。更早的滑移检测,意味着机器人控制系统有更多的时间来增加抓握力,从而防止物体掉落。这在动态、不确定的真实环境中至关重要,比如从人手中接过易碎物品。
6. 工程实践中的挑战与应对策略
将这样一套前沿的神经形态感知系统从实验室搬到现实应用,会面临一系列工程挑战。以下是一些关键的注意事项和潜在的解决方案。
6.1 传感器校准与时间同步
挑战:事件相机和ACES触觉皮肤产生的是异步、非周期性的数据流。要将它们有效融合,必须实现微秒级甚至更高精度的时间同步。任何时间错位都会导致融合特征学习混乱。 应对策略:
- 硬件同步:使用统一的、高精度的主时钟源,同时向两个传感器发送全局时间戳或触发信号。Prophesee相机和定制化的ACES读取电路都需要支持外部时钟输入。
- 软件同步:在数据采集端,为每个事件打上来自同一时间源的高精度时间戳。在后处理或网络输入层,通过基于时间戳的插值或对齐算法,将两个流在时间轴上对齐。
6.2 脉冲神经网络的设计与训练
挑战:设计一个能同时高效处理视觉事件流(高空间分辨率、时间密集)和触觉事件流(空间稀疏、模式特异)的SNN架构并非易事。SNN的训练也比ANN更不稳定。 应对策略:
- 分治与融合:可以采用两个并行的SNN编码器分支,分别处理视觉和触觉模态,学习各自的特征表示,然后在中间层进行融合。TactileSGNet是一个良好的触觉分支起点。
- 利用转换与联合训练:先使用成熟的ANN-to-SNN转换方法获得一个基础模型,再在事件数据集上进行微调。或者,使用替代梯度法等直接训练SNN的方法,但需要仔细调整超参数如神经元阈值、时间常数等。
- 利用开源框架:使用如NengoDL、SNNTorch、Lava(英特尔为Loihi开发的框架)等开源库,可以大大降低模型开发和部署的难度。
6.3 系统集成与实时性保障
挑战:完整的系统包括传感器、神经形态芯片(Loihi)、机器人主控制器(通常为ROS系统下的工控机或嵌入式平台)。需要确保数据流在各个环节的实时性,避免成为“快感知、慢决策”的系统。 应对策略:
- 边缘计算架构:将Loihi芯片作为专用的感知协处理器,通过高速接口(如USB 3.0, PCIe)与主控制器连接。感知推理任务完全卸载到Loihi上,主控制器只接收轻量级的识别结果和滑移标志。
- 优化通信:设计精简的通信协议,只传输必要的推理结果,而非原始事件流。确保通信延迟确定且可控。
- 机器人控制回路整合:将滑移检测信号作为最高优先级的中断信号输入机器人控制器,触发即时的力控调整算法,缩短从感知到动作的整个环路时间。
6.4 泛化能力与鲁棒性
挑战:实验室环境下训练的模型,在面对新的、未见过的物体形状、纹理、光照条件时,性能可能会下降。 应对策略:
- 数据增强:对事件流数据进行增强,如模拟事件丢失(模拟传感器噪声)、随机时间缩放、空间仿射变换等,提升模型鲁棒性。
- 多任务学习:让网络同时学习物体识别、重量估计和滑移检测等多个相关任务,共享底层特征,可能获得更好的泛化性能。
- 在线学习或自适应:在更高级的系统中,可以探索让SNN具备一定的在线学习能力,在机器人运行过程中缓慢适应新的物体特性。
7. 未来展望与应用场景
这项研究不仅证明了一种技术路径的可行性,更为未来低功耗、高智能的机器人及智能设备打开了新的想象空间。
1. 精密装配与柔性制造:在电子元件装配、食品分拣等场景,需要机器人对微小力感和物体滑移极度敏感。神经形态视觉-触觉融合系统能以极低功耗实现毫秒级的反应,提高生产良率和效率。2. 人机协作与共融:未来的协作机器人需要安全、自然地与人交互。具备类人反应速度的滑移检测能力,可以让机器人在与人手交接工具、共同搬运物体时,更安全、更柔顺,避免因抓握不稳而伤人或损物。3. 可穿戴设备与假肢:为智能假肢配备ACES电子皮肤和事件视觉,可以为截肢者提供更自然、更节能的触觉和视觉反馈,实现更精细的操作。4. 移动机器人自主操作:对于野外或太空探索的移动机器人,能源极其宝贵。神经形态感知系统能使其在有限的电池容量下,进行更长时间、更复杂的自主操作任务。
这项工作的深远意义在于,它展示了一条通往“环境智能”的务实路径:通过模仿生物感知系统的根本原理,而非单纯堆砌算力,我们能够创造出在能效和性能上都更接近甚至超越生物体的机器感知系统。神经形态工程不再是遥远的学术概念,它正在成为解决现实世界边缘智能挑战的关键技术。