news 2026/3/26 23:10:56

Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

Depth-Wise Emergence of Prediction-Centric Geometry in Large Language Models

Authors:Shahar Haim, Daniel C McNamee

Deep-Dive Summary:

论文总结:ControlNet - 为文本到图像扩散模型添加条件控制

这篇文章介绍了一种名为ControlNet的神经网络架构,旨在通过学习特定任务的条件来增强预训练的大型文本到图像扩散模型(如 Stable Diffusion)。

1. 研究背景与动机


尽管预训练的扩散模型在生成高质量图像方面表现出色,但仅通过文本提示(Prompt)往往难以实现对图像空间结构的精细控制。ControlNet 的出现解决了如何在大模型中有效引入空间条件引导(如边缘图、人体姿态、深度图等)的问题。

2. ControlNet 核心架构


ControlNet 的设计思路是复制预训练模型的网络权重,分为“锁定副本”(Locked Copy)和“可训练副本”(Trainable Copy)。这种架构确保了在学习新条件的同时,不会破坏原有模型在大规模数据集上习得的生成能力。


该模型引入了**零卷积(Zero Convolution)**技术,即初始化为零的1 × 1 1 \times 11×1卷积层。其数学表达如下:
y = F ( x ; Θ ) + Z ( F ( x + Z ( c ; Θ z 1 ) ; Θ c ) ; Θ z 2 ) y = \mathcal{F}(x; \Theta) + \mathcal{Z}(\mathcal{F}(x + \mathcal{Z}(c; \Theta_{z1}); \Theta_c); \Theta_{z2})y=F(x;Θ)+Z(F(x+Z(c;Θz1);Θc);Θz2)
其中Z ( ⋅ ) \mathcal{Z}(\cdot)Z()表示零卷积操作,c cc是条件向量。这种设计使得模型在训练初期能够保持输出与原模型一致,避免了随机噪声对预训练权重的干扰。

3. 模型集成与条件处理


ControlNet 被应用于 Stable Diffusion 的编码器部分。通过这种方式,它能够提取各种图像特征(如 Canny 边缘、HED 边缘、人体骨架点等)并将其转化为引导信息。


作者探讨了在不同数据规模和计算资源下的训练稳定性。即使在计算资源受限的情况下(如单张消费级 GPU),ControlNet 也能展现出强大的学习能力。

4. 实验与功能展示


论文展示了 ControlNet 支持的多种控制模式,包括但不限于:

  • Canny 边缘引导:基于图像轮廓生成。
  • OpenPose 姿态引导:通过人体骨架控制生成角色的动作。
  • 深度图与法线贴图:保留场景的三维结构信息。



通过对比实验,ControlNet 在控制精度和图像质量上显著优于此前的基准模型。无论是复杂的线条还是精细的纹理,ControlNet 都能在保持文本一致性的同时,严谨地遵循空间条件约束。

5. 结论与未来影响


ControlNet 为大型生成模型提供了一种高效、稳健的微调方案。它不仅推动了图像生成技术在专业艺术创作、工业设计等领域的应用,也为后续多模态生成研究奠定了基础。

Original Abstract:We show that decoder-only large language models exhibit a depth-wise transition from context-processing to prediction-forming phases of computation accompanied by a reorganization of representational geometry. Using a unified framework combining geometric analysis with mechanistic intervention, we demonstrate that late-layer representations implement a structured geometric code that enables selective causal control over token prediction. Specifically, angular organization of the representation geometry parametrizes prediction distributional similarity, while representation norms encode context-specific information that does not determine prediction. Together, these results provide a mechanistic-geometric account of the dynamics of transforming context into predictions in LLMs.

PDF Link:2602.04931v1

部分平台可能图片显示异常,请以我的博客内容为准

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/22 21:30:47

制药业CRM系统需求激增,预测未来六年将以7.8%的CAGR稳健增长

2025 - 2032全球制药行业CRM软件市场洞察:规模增长与竞争格局剖析据恒州诚思调研统计,2025年全球制药行业CRM软件市场规模约达14.06亿元,预计未来将持续保持平稳增长态势,至2032年市场规模将接近23.71亿元,未来六年复合…

作者头像 李华
网站建设 2026/3/18 7:48:45

Leetcode—206. 反转链表【简单】

2025每日刷题(247) Leetcode—206. 反转链表实现代码 /*** Definition for singly-linked list.* type ListNode struct {* Val int* Next *ListNode* }*/ func reverseList(head *ListNode) *ListNode {dummy : new(ListNode)dummy.Next nilpr…

作者头像 李华
网站建设 2026/3/16 8:29:10

「中南林业科技大学和河南大学地理科学与工程学部支持 | E3S Web of Conferences(ISSN:2267-1242)出版」第二届能源工程与污染治理国际学术会议(EEPC 2026)

第二届能源工程与污染治理国际学术会议(EEPC 2026) 2026 2nd International Conference on Energy Engineering and Pollution Control 2026年3月13日,线上会议 大会官网:www.iceepc.org【参会投稿】 截稿时间:见官…

作者头像 李华
网站建设 2026/3/15 22:51:39

NDW-100000型微机控制重型汽车传动轴静扭试验机

NDW-100000型微机控制重型汽车传动轴静扭试验机一、概述:NDW-100000型微机控制重型汽车传动轴静扭试验机采用平台式结构,试样安装方便,可用于重型传动轴、半轴、汽车扭杆、转向柱的等轴类、杆类的扭转疲劳试验与静态特性试验(扭转…

作者头像 李华
网站建设 2026/3/18 19:22:26

PLS-25-7电液伺服七通道汽车悬架疲劳试验系统

PLS-25-7电液伺服七通道汽车悬架疲劳试验系统汽车悬架系统是汽车底盘系统关键的一部分,汽车悬架系统有几个大部分(弹性元件,导向机构,减震器,横向稳定杆)组成。这部分的试验一般采用多通道的构件疲劳试验机…

作者头像 李华