SVD 是怎么被“想出来”的？——从一个朴素问题出发-洪萨配资

看起来挺简洁，对吧？但当你翻开教材，发现这背后藏着一堆正交矩阵、奇异值、特征向量……瞬间头大。

我每次看到 SVD，都忍不住想：这玩意儿到底是怎么被“想出来”的？是某个数学家喝多了咖啡，突然梦见上帝说：“听着，所有矩阵都能拆成三步走……”

今天，我们不背公式，不套定理。我们要还原 SVD 的“发明”过程——从一个最朴素的问题出发：一个矩阵，到底对向量做了什么？

一、矩阵左乘 = 沿坐标轴的伸缩（从最简单例子开始）

我们从一个最简单的

对角矩阵入手：

[

]

取任意向量

[

]

，左乘后得到：

[

]

这意味着：输入向量在标准基方向

(

)

和

(

)

上被独立拉伸——

方向放大 3 倍，

方向不变。

这个例子揭示了矩阵左乘的本质：线性变换 = 对输入空间的各个方向进行伸缩（可能还混合）。

而对角矩阵之所以“干净”，是因为它恰好以标准基为伸缩方向，没有混合。

但现实中的矩阵通常不是对角的。那么问题来了：非对角矩阵是否也能找到自己的“伸缩方向”？

二、EVD：方阵的“主伸缩方向”与秩的含义

考虑一个对称方阵：

[

]

我们寻找那些被

作用后只伸缩、不转向的向量

，即满足：

这就是特征方程，其中

是特征值，

是对应的特征向量。

对上面的

，解得两组解：

，对应

[

]

，对应

[

−

]

将这两个向量单位化（归一化），得到标准正交基：

√

[

]

√

[

−

]

把它们拼成正交矩阵

[

]

，则

。

由于

对每个列都成立，我们可以把所有等式合写为：

⇒

其中

[

]

这就是特征值分解（EVD）。它告诉我们：任何可对角化的方阵，本质上只是在一组特定正交方向上做独立伸缩。

满秩 vs 低秩：不只是数学，更是能力

一个

矩阵的“能力”取决于它有多少个非零特征值。

满秩矩阵：比如

[

]

有两个非零特征值（3 和 1），秩为 2。它能对任意方向的输入产生非零输出——换句话说，它可以“操控”整个 2D 空间。

低秩矩阵：比如

[

]

特征值为 2 和 0，秩为 1。它只能在方向

[

]

上拉伸，而在垂直方向

[

−

]

上输出恒为零。无论你输入什么，结果永远落在一条直线上。

在深度学习中，这种差异至关重要：

满秩变换（如初始权重）具有最大表达能力，能响应任意输入变化；

低秩更新（如微调时的

）则表明：模型真正需要调整的，往往只是少数几个“敏感方向”。

这正是 LoRA（Low-Rank Adaptation）有效的核心原因：我们不需要改动整个高维权重矩阵，只需在低维子空间中微调，就能高效适配新任务。

但 EVD 有一个致命限制：它只适用于方阵。一旦矩阵是“长方形”的，比如

∈

且

≠

，特征方程

就因维度不匹配而失去意义。

于是，我们必须回答一个更一般的问题：非方阵如何描述其“伸缩行为”？

三、SVD：为非方阵找到“跨空间的主方向”

面对

∈

，我们放弃“输入输出方向相同”的执念，转而问：

是否存在输入空间的一组标准正交基

{

…

}

和输出空间的一组标准正交基

{

…

}

，使得

(

…

min

(

)

这个等式是我们希望达成的目标：第

个输入主方向

，只激发第

个输出主方向

，放大

倍。

我们按拉伸强度从大到小排序：

≥

⋯

≥

。

更一般的表示是

后面我们可以知道

是正交矩阵，所以上式两边都右乘

，就可以得到常见的 SVD 的形式了

−

3.1 以最强方向

为例

回归正题，我们该如何计算

呢？我们以最强方向，即

为最大值的情况为例。

假设存在单位向量

和

，使得：

∥

两边取范数，得：

∥

因此，

就是

在单位输入下能产生的最大输出长度。

换句话说，

是如下优化问题的解：

max

∥

由于范数非负，等价于最大化其平方：

max

∥

max

∥

(

)

3.2 计算奇异值和右奇异矩阵 V

记

。矩阵

是

实对称矩阵，且对任意

有

≥

，故

半正定。记

的特征值按非增序排列为

≥

⋯

≥

，对应的标准正交特征向量为

…

，即

瑞利商的极值性质表明(原理推导见本节末尾）：

max

∥

且最大值在

处取得。更一般地，对

…

，

max

∥

⊥

…

−

在

处取得。说人话就是，第k 大的值就是

，而且是在

时可以得到。

所以

max

∥

(

)

…

则

√

≥

⋯

≥

，且

至此，我们成功求解了矩阵 V和奇异值矩阵

瑞利商性质：对实对称矩阵

，定义其瑞利商为

(

)

≠

当

∥

时，

(

)

。

设

的特征值按非增序排列为

≥

⋯

≥

，对应的标准正交特征向量为

…

，即

瑞利商的极值性质表明：

max

∥

且最大值在

处取得。更一般地，对

…

，

max

∥

⊥

…

−

在

处取得。

因此，令

√

…

则

≥

⋯

≥

，且

∥

3.3 构造左奇异矩阵

令

rank

(

)

。由于

rank

(

)

rank

(

)

，有

当且仅当

≤

。

对每个

…

，根据最前面的定义

，我们有

至此就可算出对应的

。我们会发现求得的

也是基坐标，彼此正交：

∥

⋅

且

对

≠

≤

，有

(

)

⋅

故

{

…

}

是

中的标准正交向量组。

前面计算的

是与

一一对应的，但是当

时，剩下的

该如何计算呢？我们会发现存在

−

维子空间

⊥

{

∈

∣

∀

…

}

在

⊥

中任取一组标准正交基

{

…

}

，则最终的左奇异矩阵为

[

…

]

∈

为正交矩阵。

3.4 拼装 SVD

令

[

…

]

∈

，

∈

为对角矩阵，其对角元为

…

，其余元素为 0。

由

对

…

成立，且对

有

，可得矩阵等式

由于

正交（

），右乘

得

结语

SVD 并非凭空定义的数学魔术，而是为了解决“非方阵如何描述伸缩”这一朴素问题，从对角矩阵 → EVD → 跨空间推广，一步步自然推导出的必然结果。

SVD 是怎么被“想出来”的？——从一个朴素问题出发

在STM32F103单片机上跑通AI模型：为什么选正弦波作为Hello World？

usbmuxd终极指南：iOS设备USB通信完整安装教程

MARS5-TTS语音克隆完全指南：从零到一的实战进阶

三星设备固件刷写终极指南：Heimdall工具完整使用教程

自适应巡航控制器ACC设计：基于MPC控制的车间距保持与速度跟随，S函数代码实现，Matlab...

机器学习在测试中的应用：自动生成用例与缺陷预测