Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models
Authors:Shahar Haim, Daniel C McNamee
Deep-Dive Summary:
论文总结:ControlNet - 为文本到图像扩散模型添加条件控制
这篇文章介绍了一种名为ControlNet的神经网络架构,旨在通过学习特定任务的条件来增强预训练的大型文本到图像扩散模型(如 Stable Diffusion)。
1. 研究背景与动机
尽管预训练的扩散模型在生成高质量图像方面表现出色,但仅通过文本提示(Prompt)往往难以实现对图像空间结构的精细控制。ControlNet 的出现解决了如何在大模型中有效引入空间条件引导(如边缘图、人体姿态、深度图等)的问题。
2. ControlNet 核心架构
ControlNet 的设计思路是复制预训练模型的网络权重,分为“锁定副本”(Locked Copy)和“可训练副本”(Trainable Copy)。这种架构确保了在学习新条件的同时,不会破坏原有模型在大规模数据集上习得的生成能力。
该模型引入了**零卷积(Zero Convolution)**技术,即初始化为零的1 × 1 1 \times 11×1卷积层。其数学表达如下:
y = F ( x ; Θ ) + Z ( F ( x + Z ( c ; Θ z 1 ) ; Θ c ) ; Θ z 2 ) y = \mathcal{F}(x; \Theta) + \mathcal{Z}(\mathcal{F}(x + \mathcal{Z}(c; \Theta_{z1}); \Theta_c); \Theta_{z2})y=F(x;Θ)+Z(F(x+Z(c;Θz1);Θc);Θz2)
其中Z ( ⋅ ) \mathcal{Z}(\cdot)Z(⋅)表示零卷积操作,c cc是条件向量。这种设计使得模型在训练初期能够保持输出与原模型一致,避免了随机噪声对预训练权重的干扰。
3. 模型集成与条件处理
ControlNet 被应用于 Stable Diffusion 的编码器部分。通过这种方式,它能够提取各种图像特征(如 Canny 边缘、HED 边缘、人体骨架点等)并将其转化为引导信息。
作者探讨了在不同数据规模和计算资源下的训练稳定性。即使在计算资源受限的情况下(如单张消费级 GPU),ControlNet 也能展现出强大的学习能力。
4. 实验与功能展示
论文展示了 ControlNet 支持的多种控制模式,包括但不限于:
- Canny 边缘引导:基于图像轮廓生成。
- OpenPose 姿态引导:通过人体骨架控制生成角色的动作。
- 深度图与法线贴图:保留场景的三维结构信息。
通过对比实验,ControlNet 在控制精度和图像质量上显著优于此前的基准模型。无论是复杂的线条还是精细的纹理,ControlNet 都能在保持文本一致性的同时,严谨地遵循空间条件约束。
5. 结论与未来影响
ControlNet 为大型生成模型提供了一种高效、稳健的微调方案。它不仅推动了图像生成技术在专业艺术创作、工业设计等领域的应用,也为后续多模态生成研究奠定了基础。
Original Abstract:We show that decoder-only large language models exhibit a depth-wise transition from context-processing to prediction-forming phases of computation accompanied by a reorganization of representational geometry. Using a unified framework combining geometric analysis with mechanistic intervention, we demonstrate that late-layer representations implement a structured geometric code that enables selective causal control over token prediction. Specifically, angular organization of the representation geometry parametrizes prediction distributional similarity, while representation norms encode context-specific information that does not determine prediction. Together, these results provide a mechanistic-geometric account of the dynamics of transforming context into predictions in LLMs.
PDF Link:2602.04931v1