1. 项目概述:当红外“眼睛”学会思考
最近几年,人工智能的浪潮席卷了各行各业,从手机上的语音助手到自动驾驶汽车,背后都离不开海量的数据运算。但不知道你有没有想过,我们现在的AI系统,其实有点像一台“盲人计算机”——它需要先把外部世界的信息(比如图像、声音)通过传感器(摄像头、麦克风)采集下来,转换成数字信号,再千里迢迢地送到中央处理器(CPU/GPU)去计算。这个过程不仅耗电,还慢,尤其是在处理像红外图像这种数据量本身就很大的信息时,瓶颈非常明显。
这就引出了一个非常前沿的研究方向:感存算一体。简单来说,就是让传感器本身“长脑子”,让它不仅能“看见”(感知),还能“记住”(存储),更能“思考”(计算)。这就像把眼睛和大脑的功能集成在一个细胞里,看到的同时就在理解,效率会呈指数级提升。而红外技术,作为能在黑暗中“视物”、穿透烟雾尘埃的“火眼金睛”,如果能和感存算一体结合,其想象空间巨大——从让无人机在夜间自主避障,到让安防摄像头实时识别异常热源,都不再需要庞大的后台服务器支持。
上海技物所(中国科学院上海技术物理研究所)近期取得的这项进展,正是瞄准了这个极具潜力的交叉点。他们研究的红外感存算一体神经形态光电器件,本质上是在尝试打造一种全新的硬件基石。这种器件模仿了生物神经元的工作方式,能够直接对接收到的红外光信号进行原位处理与初步判断,从而有望彻底改变传统红外成像系统的架构。我关注这个领域有段时间了,深感其意义不在于某个参数的微小提升,而在于提供了一种全新的问题解决范式。接下来,我就结合自己的理解,为大家拆解这项技术背后的核心逻辑、实现难点以及它可能开启的未来。
2. 核心思路:为何要走向“感存算一体”?
要理解这项研究的价值,我们得先看看现在主流的红外系统是怎么工作的。一个典型的非制冷红外焦平面阵列,其工作流程可以概括为“感知-读出-转换-计算”四步走。
2.1 传统架构的“阿喀琉斯之踵”
首先,红外探测器像元接收到物体发出的红外辐射,产生微弱的电信号变化(感知)。接着,这个模拟信号被复杂的读出电路(ROIC)采集并放大(读出)。然后,通过模数转换器(ADC)变成一串串“0”和“1”的数字信号(转换)。最后,这海量的数字数据通过总线传输到专用的图像处理芯片或通用处理器中进行计算,实现测温、识别等功能(计算)。
这个流程存在几个固有的瓶颈:
- 功耗墙:数据在传感器、存储器和处理器之间来回搬运,是系统功耗的主要来源。有研究表明,在传统冯·诺依曼架构中,数据搬运的能耗可能占总能耗的60%以上。对于依赖电池的无人机、手持设备或物联网节点,这是致命伤。
- 带宽墙与延迟:高分辨率的红外图像数据量巨大,从传感器到处理器的传输路径形成了带宽瓶颈,导致处理延迟。这在需要实时响应的场景(如自动驾驶避障)中是难以接受的。
- “冗余”计算:很多红外应用(如人体检测、特定设备状态监控)并不需要处理图像的每一个细节。传统流程却不得不对所有像素进行全精度数字化和传输,造成了巨大的计算和能耗浪费。
2.2 生物启发的“神经形态”之路
而大自然早已给出了更优的解决方案——我们的大脑。视网膜不仅仅是一个传感器,它本身就对视觉信息进行了初步的预处理(如边缘增强、动态范围压缩)。神经元既是计算单元,也通过突触权重的变化实现信息存储(记忆)。这种感知、存储、计算紧密耦合的方式,高效且低功耗。
神经形态计算就是受此启发,旨在设计出硬件层面模仿神经元和突触行为的电子器件。传统的感存算一体研究,多集中在利用新型存储器(如忆阻器)来模拟突触,实现乘积累加运算。但上海技物所这项工作的特别之处在于,它将“感”的部分聚焦在了红外光这个特殊的物理信号上,并且试图将光电转换过程与神经形态特性在同一个器件物理层面上融合起来。
他们的核心思路,我理解为是让红外光电响应本身具备“记忆”和“初步逻辑”能力。不是简单地把一个红外探测器和一块忆阻器拼在一起,而是设计一种新材料或新结构,使得器件在受到红外光照射时,其电学状态(如电阻、电流)的变化不仅与当前光照有关,还与此前的光照历史相关(这就是“记忆”),并且这种状态变化能直接体现某种计算逻辑(比如“如果某区域温度持续升高,则输出报警信号”)。
这相当于在数据产生的源头——光电子层面,就完成了第一次信息筛选和特征提取,只将“有意义”的、或经过初步处理的信息向后传递,从而从根本上规避了“带宽墙”和“冗余计算”问题。
3. 技术深潜:器件如何实现“感存算”?
那么,一个器件如何同时实现红外感知、信息存储和神经形态计算呢?这需要从材料、结构和物理机制三个层面进行创新设计。根据公开的学术资料和类似研究,我推测上海技物所的工作可能涉及以下几种主流或前沿的技术路径。
3.1 核心材料体系的选择
要实现红外感存算,材料是关键。它需要同时满足几个苛刻条件:
- 对红外光敏感:能够在特定红外波段(如中波红外3-5μm,长波红外8-14μm)有效吸收光子并产生显著的物理效应(如载流子激发、相变、铁电极化翻转等)。
- 具备非易失性记忆特性:其物理状态(如电阻、极化方向)可以在外部激励(光、电)下发生改变,并在激励撤消后能保持一段时间。
- 状态连续可调:记忆状态的变化最好是模拟量、连续可调的,这样才能模拟生物突触的权重,实现高精度的神经网络计算。
目前,有几种材料体系备受关注:
- 二维材料及其异质结:如石墨烯、黑磷、过渡金属硫族化合物(MoS₂, WSe₂)等。它们的能带结构易于调控,对光敏感,且表面洁净,易于构建复杂的异质结构。通过堆叠不同二维材料,可以形成内建电场,光生载流子在其中被分离和捕获,从而产生持久光电导效应,实现光强的记忆。
- 氧化物半导体与忆阻材料:如氧化铟锡(ITO)、氧化锌(ZnO)与氧化铪(HfO₂)、氧化钽(TaOₓ)等忆阻层的结合。红外光可能通过热效应或光生载流子效应,触发忆阻层中氧空位细丝的形成或断裂,从而改变器件整体电阻,且该电阻状态可保持。
- 相变材料(PCM):如Ge₂Sb₂Te₅(GST)。它们可以在晶态(低阻)和非晶态(高阻)之间可逆转变。红外光照射产生的局部热效应,可以精确控制材料的相变程度,实现多阻态存储,非常适合模拟突触权重。
注意:材料的选择绝非孤立。它必须与器件结构、电极设计、制备工艺协同优化。例如,为了提升红外吸收效率,可能需要设计光学谐振腔或等离激元结构;为了确保电学性能稳定,电极材料与功能层的接触界面工程至关重要。
3.2 典型的器件物理机制
基于上述材料,研究者们会设计出特定的器件结构(通常为简单的两端或三端结构),并利用以下一种或多种物理机制来实现感存算功能:
光致阻变效应:器件初始处于某一电阻态。当特定波长的红外光照射时,光生载流子被材料中的缺陷(如氧空位)捕获,或者光热效应促使离子迁移,导致器件电阻发生不可逆或可逆的改变。光照停止后,新的电阻态得以保持。不同光强或光照时间对应不同的最终电阻,这就实现了“光强-阻值”的映射与记忆。这个阻值可以直接作为神经网络的突触权重。
浮栅晶体管结构:这类似于传统闪存。红外光照射产生光生载流子(电子-空穴对),其中的电子在栅极电场辅助下,被注入并存储在浮栅中。浮栅中捕获的电荷量会调制晶体管的沟道电导。光照越强,注入电荷越多,电导变化越大,且断电后电荷能保留。这样,红外光信号就被直接转换并存储为模拟的电导值,可用于计算。
光电突触仿生:这是更接近生物的实现方式。通过设计器件,使其在红外光脉冲(类似神经递质刺激)作用下,输出电流能表现出短期可塑性(STP)或长期可塑性(LTP)。例如,一个弱光脉冲引起电流微小、快速衰减的变化(STP,对应短期记忆);而一连串强光脉冲则引起电流大幅、缓慢衰减甚至永久性的变化(LTP,对应长期记忆)。这种特性可以直接用于实现脉冲神经网络(SNN)中的时空信息处理。
3.3 上海技物所可能的创新点
虽然无法获知其具体技术细节,但结合其深厚的红外光电研究背景,我们可以进行一些合理的推测。他们的突破可能体现在:
- 红外特异性的材料设计:可能合成或发现了一种对中长波红外具有极高吸收系数和光响应度的新型功能材料,并且该材料本征就具备良好的非易失性记忆特性。
- 光-电-热多物理场耦合的巧妙利用:红外光,尤其是长波红外,具有很强的热效应。他们可能没有将热效应视为干扰,反而主动利用它。例如,设计一种器件,其相变或阻变过程对温度极其敏感,利用红外光产生的微区温升来精确操控器件状态,实现了低功耗的光控存储。
- 器件结构与读出电路协同设计:为了真正实现“一体”,他们可能设计了与神经形态计算架构(如交叉阵列)高度兼容的器件单元结构,并开发了与之匹配的低噪声、模拟读出电路,使得阵列级集成成为可能。
4. 从器件到系统:如何构建红外神经形态视觉?
单个器件性能优异只是第一步。要将它用于实际,必须考虑如何将成千上万个这样的器件集成起来,形成一个能处理二维红外图像的“神经形态视觉芯片”。这涉及到阵列设计、互联、以及算法映射等一系列系统级挑战。
4.1 阵列架构与集成方案
最理想的架构是感存算交叉阵列。在这个阵列中,每一行和每一列的交叉点就是一个红外感存算一体器件。它的电导值(G)代表突触权重。当红外图像投射到阵列上时,每个器件根据其接收到的光强,独立地、并行地调整自身的电导(完成感知和权重编程/更新)。然后,通过给各行输入特定的电压脉冲(模拟神经元的输入信号),利用基尔霍夫定律,在每一列上输出的总电流就是该列所有输入电压与对应电导乘积之和,即一次并行的向量-矩阵乘法(VMM)运算。这是神经网络中最核心、最耗时的操作。
集成上的主要挑战包括:
- 均匀性与一致性:大规模阵列中,每个器件的初始性能、光响应灵敏度、记忆特性必须高度一致,否则计算误差会累积放大。
- 串扰:在交叉阵列中,当对某个器件进行读写或光编程时,要确保不影响相邻器件。这需要精妙的选通电路设计。
- 光串扰:红外光可能在像素间发生衍射或散射,导致一个像素的光信号影响邻居。这需要微透镜阵列或光学隔离结构来改善。
4.2 算法与硬件的协同设计
传统的深度学习算法(如CNN)是为数字GPU设计的,不一定适合直接在模拟/混合信号的神经形态硬件上高效运行。因此,需要算法-硬件协同设计。
- 面向硬件的算法简化:针对器件可能存在的非理想特性(如电导值更新非线性、器件间波动),设计鲁棒性更强的训练算法。或者,直接采用更接近生物工作方式的脉冲神经网络(SNN)。SNN的稀疏、事件驱动特性,与感存算一体器件对光脉冲的响应特性可能天然匹配。
- 原位学习与更新:感存算一体阵列的一个巨大优势是支持原位学习。系统可以在部署现场,根据实时接收到的红外数据,直接微调阵列中器件的电导(权重),实现自适应和持续学习。这需要设计相应的在线学习规则和外围电路。
- 分层处理与异构计算:一个完整的红外智能视觉系统可能采用异构架构。前端的感存算一体阵列负责完成低层、高数据吞吐量的特征提取(如边缘检测、运动感知),将处理后的稀疏特征或事件发送给后端更通用的数字处理器进行高层语义分析(如目标分类)。这样实现了效率和灵活性的平衡。
5. 应用场景与未来展望
这项技术一旦走向成熟,其应用将深刻改变多个领域。我们可以从两个维度来看:一是替代现有系统中“感知+初级处理”的部分,实现降本增效;二是催生过去无法实现的新应用。
5.1 近期的现实应用
- 超低功耗智能安防与监控:传统的智能摄像头需要持续将高清视频流上传至云端或本地服务器分析,功耗和带宽成本高。采用红外感存算一体芯片的摄像头,可以只在检测到特定红外特征(如人体形状、异常热源)时,才触发录像或上传报警信息,其余时间处于极低功耗的“感知待机”状态。非常适合野外电网巡检、边境周界安防、家庭隐私监控等场景。
- 自动驾驶的冗余感知系统:在恶劣天气(雾、霾、黑夜)下,可见光摄像头和激光雷达可能失效,而红外传感器是可靠的补充。感存算一体的红外系统可以实时处理红外图像,快速识别出车辆、行人等热目标,并将精简后的关键信息(如目标位置、轨迹)直接送给决策单元,响应延迟极低,提升了安全性。
- 工业物联网与预测性维护:在工厂中部署大量、微型的无线红外传感器节点,监测关键设备(如电机、轴承、配电柜)的温度场。节点本地即可判断温度是否异常、温升趋势如何,只发送预警信息,而不是海量的原始温度图像,极大延长了电池寿命,降低了网络负载。
- 便携式医疗诊断设备:例如,用于乳腺癌早期筛查的红外热成像仪。感存算一体芯片可以在设备端实时分析双侧乳房的热图对称性、血管形态等特征,给出初步风险评估,辅助医生快速筛查,让高端医疗检测更加普惠和便捷。
5.2 长远的颠覆性想象
- 真正的事件驱动视觉系统:模仿昆虫复眼或视网膜,系统只对场景中的“变化”产生响应和计算。比如,一个静止的监控场景中,只有闯入的人或车才会触发像素级的计算事件,实现近乎零的静态功耗。这对于构建大规模、永久部署的传感器网络至关重要。
- 类脑红外感知芯片:将感存算一体器件与模拟神经元电路集成,构建出能处理红外视觉信息的完整“片上视网膜-视皮层”系统。这样的芯片可能具备强大的模式识别和联想记忆能力,在复杂环境下表现出超越传统算法的鲁棒性。
- 新型人机交互:能够理解人体手势、表情甚至情绪热辐射的微型芯片,集成到AR/VR眼镜、可穿戴设备中,实现更自然、更隐秘的交互方式。
6. 面临的挑战与思考
尽管前景广阔,但红外感存算一体器件从实验室走向市场,还有漫漫长路。根据我在微电子和传感器领域的观察,以下几个挑战尤为突出:
器件性能的权衡与优化:感光性能(响应度、探测率)、存储性能(保持时间、耐久度)、计算性能(线性度、对称性)往往相互制约。例如,提高光响应可能需要更厚的吸光层,但这可能不利于器件状态的高速切换。如何通过材料工程和结构设计找到最佳平衡点,是核心科学问题。
大规模集成与良率:实验室单个器件的优异性能,在扩展到百万甚至千万像素阵列时能否保持?制备工艺的均匀性、可控性将是产业化的巨大门槛。这需要半导体工艺线的深度介入和迭代。
标准化与生态缺失:与传统CMOS图像传感器(CIS)成熟的产业链和标准接口相比,神经形态感存算一体芯片还是一个“非主流”的新生事物。缺乏统一的架构标准、编程模型、开发工具链,会阻碍应用开发者的进入。
算法与硬件的深度磨合:目前大多数神经网络算法仍是“硬件无关”的。要释放这种新型硬件的全部潜力,可能需要从数学原理上重新思考计算范式,开发原生适配的算法。这是一个需要计算机科学家、算法工程师和硬件工程师紧密协作的领域。
我个人认为,这项研究最令人兴奋的地方,不在于它立刻能做出一个多厉害的产品,而在于它为我们提供了一条绕过传统计算架构瓶颈的全新路径。它把信息处理的起点,从数字世界的“比特”,重新拉回到了物理世界的“光子”和“电子”,尝试在能量与信息转换的最初环节,就注入智能。这更像是一场思维方式的变革。当然,这条路上充满了未知和挑战,但每一次器件物理机制的创新,每一次阵列集成技术的突破,都可能为未来的智能感知世界添上一块坚实的基石。对于从事相关领域的研究者和工程师来说,现在正是深入理解、甚至参与塑造这个方向的好时机。毕竟,当设备的“眼睛”真正学会思考时,我们所能创造的,将远超今天的想象。