无需重新训练,只要抑制 0.1% 的特定神经元,就能让模型“闭嘴”?
近年来,大语言模型(LLMs)在问答、推理与生成任务中展现出卓越能力,但其幻觉(Hallucination)问题仍然是制约实际应用的核心挑战之一。
模型有时会在缺乏事实依据的情况下给出看似合理却错误的回答,甚至在面对明显错误或虚构的信息时依然“自信作答”。
为了解决这个问题,学术界和工业界尝试了各种宏观层面的手段:从数据清洗、后训练对齐,到外挂知识库(RAG)。
然而,这些方法大多将模型视为一个黑盒,试图从外部矫正其行为。但是,模型内部究竟发生了什么?幻觉在模型内部是如何产生的?对于幻觉,是否存在可被精确定位、分析乃至干预的内部结构?
围绕这一问题,清华大学 THUNLP、清华大学新闻与传播学院、OpenBMB 以及面壁智能的联合团队近期的一项工作从微观神经元视角出发,系统研究了 LLM 中的幻觉机制。
不仅找到了与幻觉相关的极少数神经元(H-Neurons),更揭示了一个令人意外的真相:幻觉并非无序的生成错误,而是模型为了顺从你进行的“过度配合”。
论文标题:
H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs
论文地址:
https://arxiv.org/pdf/2512.01797
核心贡献
团队从神经元层面对 LLM 中的幻觉问题进行了系统研究,围绕“是否存在、如何影响行为、从何而来”三个核心问题,给出了相对完整的机制性回答,论文的主要贡献如下:
在神经元层面验证了幻觉的可定位性,并揭示了幻觉背后的行为机制。
识别出极其稀疏(<0.1%)的一部分与幻觉高度相关的神经元,它们在数量上极其稀少,却能够有效地区分幻觉与非幻觉输出。
通过对 H-Neurons 进行推理阶段的扰动,团队发现这些神经元并非简单地“编码错误事实”,而是在驱动模型的顺从性,由此,幻觉被自然地统一为“过度顺从”的具体表现,而非孤立的异常行为。
追溯了幻觉相关神经元的训练起源,团队发现这些神经元的核心作用在预训练阶段已基本成型,而非单纯由后训练引入。
核心方法
2.1 幻觉定位:H-Neurons
在 LLM 中,是否存在一部分神经元,其激活模式能够稳定地区分“幻觉回答”与“真实回答”?
如果幻觉信号在神经元层面高度分散,那么针对幻觉的分析与干预很可能只能停留在宏观调控;相反,若幻觉能够被归因到一小部分神经元,则意味着其背后可能存在更加清晰、可操作的机制。
基于这一考虑,团队从模型的前馈神经网络(FFN)层出发,开展神经元级别的系统分析。
具体而言,团队并未简单使用神经元的原始激活值,而是引入了 CETT 指标,用以量化单个神经元在具体生成过程中对输出的实际贡献程度,这一设计旨在避免将高激活但低影响的神经元误判为活跃神经元,更精准地衡量神经元的实际贡献。
在此基础上,团队收集了模型产生和未产生幻觉的等量回复,将每个神经元在这些回复的生成过程中的贡献值作为特征,构建了一个带有强正则化约束的稀疏预测模型,用以区分幻觉与非幻觉输出,稀疏性约束的引入,使模型能够在大量候选神经元中,自动筛选出最具判别力的最小神经元子集。
为了证明这部分神经元不只是捕捉到数据集的偶然相关性,团队在实验中采用了严格的跨数据集评估策略:预测模型仅在单一数据集上训练,但在多个不同领域、不同问题分布的数据集上进行测试,如果稀疏预测模型在不同数据集上均能保持较高的幻觉预测准确率,便能说明所选神经元捕捉到了鲁棒的幻觉信号。
实验结果显示,模型中确实存在一类与幻觉高度相关的神经元,它们极其稀疏,通常不足全部神经元的 0.1%,但对幻觉的预测能力却十分显著。
更重要的是,这些神经元的预测能力能够稳定泛化到不同领域、不同问题形式的问答数据集,包括跨领域与含虚构实体的场景。
这意味着,幻觉在模型内部是有清晰、可定位的结构基础的。团队进一步在稀疏预测模型中,保留那些贡献与幻觉产生正相关的神经元,即 H-Neurons。
2.2 幻觉本质:大模型为满足用户需求“过度顺从”的表现
确立了 H-Neurons 的存在后,一个更深层的问题浮出水面:这些神经元到底在干什么?
仅凭预测能力,很难区分这些神经元究竟只是与幻觉相关,还是具体驱动了模型的某种行为。因此,我们进一步从因果干预的角度检验 H-Neurons 在模型行为中的作用。
具体而言,团队在不重新训练模型、不修改模型参数结构的前提下对 H-Neurons 进行了“神经外科手术”式的扰动实验:在推理阶段适度放大或抑制其输出,并观察模型整体行为的变化,实验结果揭示了幻觉背后的真正机制:过度顺从(Over-Compliance)。
团队在错误前提的顺从、误导性上下文的顺从、用户质疑的顺从、有害指令的顺从等四类顺从性任务上做了评测。
结果显示,在不同模型上,扰动实验呈现出高度一致的模式:当增强这些 H-Neurons 时,模型并没有变得语无伦次,而是展现出更高的顺从性。
例如,面对用户的质疑,模型更倾向于将自己原先回答正确的问题修改为错误的。反之,当抑制这些神经元时,模型的顺从性则随之降低。
这些变化并非零散出现,而是在不同任务设置中系统性地共同发生,这一现象指向一个统一的机制解释:H-Neurons 并非专门制造错误事实,而是在提升模型的顺从性。
从这一视角看,幻觉并不是一种孤立的异常行为,而是过度顺从的具体体现,当这种倾向被过度激活时,模型更倾向于满足用户输入,而非在信息有误或问题本身不合理时指出问题。
2.3 幻觉溯源:源于预训练,而非后训练
在确认 H-Neurons 的存在及其对模型行为的因果影响之后,团队进一步追问一个更为根本的问题:H-Neurons 是在指令微调之后产生的,还是早在预训练阶段就已经形成?
这一问题对于理解幻觉的根源具有关键意义,如果幻觉相关神经元主要由指令微调或对齐过程引入,那么通过改进对齐策略或奖励设计,或许可以从根本上缓解幻觉。
但若它起源可以追溯到预训练阶段,则意味着幻觉问题在一定程度上源于模型的基础训练目标,其治理难度与影响范围都将更为深远。
为此,团队将指令微调模型中识别出的 H-Neurons 映射回其对应的预训练模型,并在不进行任何重新训练或参数更新的情况下,直接使用之前的稀疏预测模型,评估这些神经元在预训练模型中的幻觉预测能力。
此外,团队还通过分析模型参数的演变,将 H-Neurons 的变动幅度与全网络神经元的平均变动进行全域排序对比,从而在微观参数层面判定这些神经元是否在后训练阶段被大幅重新构建了。
实验结果表明:
在预训练模型中,这些神经元依然能够显著地区分幻觉与非幻觉输出。H-Neurons 在指令微调中的平均变动幅度显著小于其他神经元。
这说明指令微调并未系统性地改变 H-Neurons ,它们并非后训练阶段的产物,而是 next-token prediction 预训练目标下自然涌现的结果。
从根本上看,模型在预训练阶段被优化去持续生成在统计上合理的下一个 token。这一目标天然偏向于鼓励回答的连贯性、流畅性与完整性。
在缺乏对“未知”或“不确定”进行明确建模的情况下,一部分神经元逐渐承担起推动生成继续进行的功能,而这些神经元在后续任务中,便可能演化为带来幻觉的关键单元。
总结
该工作为理解与缓解幻觉问题提供了新的思路。
首先,团队提供了一种基于白盒神经元信号的幻觉检测方法:H-Neurons 可作为神经元级的诊断信号,用于模型幻觉检测。
其次,推理阶段的神经元扰动结果表明,幻觉缓解并不一定依赖重新训练模型,也可能通过编辑特定神经元控制模型行为来完成,虽然简单的抑制可能影响模型效用,但这为开发更可控、更安全的 LLM 开辟了新的物理干预路径。
最后,这一工作对 LLM 训练与对齐本身提供了新的反思视角。研究结果表明,H-Neurons 在预训练阶段已基本形成,这意味着幻觉问题并非仅靠后续对齐或指令微调即可彻底解决,而与 next-token prediction 这一基础训练目标内在相关。
这一发现提示,消除幻觉可能需要超越传统的后训练思路,从更底层出发,重新审视预训练阶段的设计。
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·