2026-04-14发表2026-04-14更新学习笔记15 分钟读完 (大约2226个字)

矩阵乘法与求导入门

金培晟 Jarfield

这篇笔记只做一件事：把矩阵乘法里最常见的几种求导规则讲清楚，尤其是当自变量分别是 1 阶变量（向量） 和 2 阶变量（矩阵） 的情况。
目标不是追求最一般的张量微积分，而是先建立一套在机器学习、线性代数和最优化里足够稳定的直觉。

0. 约定与记号

为了避免一开始就混乱，先统一约定：

标量记作
向量默认是列向量，记作
矩阵记作
若是标量对向量求导，结果记作，形状与相同
若是标量对矩阵求导，结果记作，形状与相同
我们主要使用 微分法 + trace 技巧

很多教材在“分子布局 / 分母布局”上记法不同，所以你会看到有的地方梯度写成行向量，有的写成列向量。
这篇笔记统一采用：梯度和变量保持同形状。

1. 先把矩阵乘法关系捋清楚

1.1 基本形状

若

则

若

则

这是最常见的一个标量型表达式。

1.2 三类最常见输出

矩阵乘法的结果通常分成三类：

标量：
向量：
矩阵：

求导时最重要的不是“公式长什么样”，而是先看清：

自变量是谁
输出是标量、向量还是矩阵
结果应该是什么形状

2. 向量变量求导：自变量是 1 阶

这一部分设自变量是列向量。

2.1 线性型：

设

其中为常量。

则

这几乎是所有向量求导的起点。

理解

因为

对每个求偏导就是，拼起来就是向量。

2.2 二次型：

设

则

若是对称矩阵，则进一步化简为

推导

从微分出发：

第二项可改写成

第一项则是

所以

因此梯度为

2.3 范数平方：

这是最优化里最常用的一类。

设

其中，，。

则

若写成带的形式

则

为什么这里一定有

因为在中，而梯度必须与同形，即在中。
所以必须由把维度从拉回。

这个“前向乘了谁，反向通常就会乘谁的转置”是反向传播里非常核心的模式。

2.4 一页小结：向量变量

对于是向量时，最常用的三个结果：

3. 矩阵变量求导：自变量是 2 阶

现在设自变量是矩阵。

这一部分最实用的工具是：

3.1 微分定义

若是标量，且

则定义

换句话说，只要你能把微分整理成 某个矩阵 和的 trace 配对形式，梯度就出来了。

3.2 最基本的线性型：

设

其中与同形。

则

因为

这已经是标准形式了。

3.3 双边线性型：

设

其中

注意这是标量，因为形状是

把它改写成 trace：

所以

又因为

故

这是一个非常值得记住的公式：

3.4 Frobenius 范数平方：

设

其中

则

若写成

则

推导

记

则

因此

又因为

所以

利用 trace 循环性质：

因此

3.5 右乘型：

同理，若

则

这里的结构和上一条正好对应：

左边乘常量矩阵，反向就出来一个在左边
右边乘常量矩阵，反向就出来一个在右边

3.6 迹二次型：

设

其中，。

则

若对称，则

它就是向量二次型的矩阵版本。

4. 1 阶变量和 2 阶变量到底差在哪

4.1 本质区别

当自变量是向量时：

梯度是向量
常见模式是

当自变量是矩阵时：

梯度是矩阵
常见模式是把单独提出，再整理成

4.2 一个非常实用的判断原则

先不要急着背公式，先问三个问题：

自变量是谁？
输出是不是标量？
最终梯度形状应该和谁一致？

很多时候只靠形状检查，就能排除一半错误。

例如：

对求导，答案必须是，所以很自然
对求导，答案必须和同形，所以只能是

4.3 为什么矩阵求导更适合用 trace

因为矩阵变量求导时，直接按元素展开会非常长。
而 trace 有三个很强的优点：

标量都能写成 trace
trace 有循环交换性质
最终可以统一落到

所以一旦进入 2 阶变量求导，trace 基本就是主力工具。

5. 最常用公式清单

5.1 向量变量

5.2 矩阵变量

6. 一个统一视角

其实上面很多公式都在说同一件事：

前向是线性映射
反向就是把误差通过该线性映射的转置传回来

所以你可以把矩阵求导看成“线性算子的伴随”在起作用。
这也是为什么神经网络反向传播里，权重矩阵总是和转置绑在一起出现。

如果只记一句话，我会记这个：
向前乘了谁，向后大概率就会乘谁的转置；只不过要先保证维度对。

7. 这篇笔记的边界

这篇只覆盖最常见、最基础的场景：

标量对向量求导
标量对矩阵求导
线性型、二次型、范数平方型

还没有展开的内容包括：

分子布局 / 分母布局的系统区别
向量值函数对向量 / 矩阵求导
张量求导
Kronecker 积与 vec 技巧
更复杂的 trace 恒等式

如果后面继续写，我觉得最自然的下一篇是：
链式法则、矩阵求导与反向传播入门，专门讲清楚链式法则在矩阵情形下如何工作，以及为什么反向传播里总是出现转置。

矩阵乘法与求导入门

https://jarfield.github.io/2026/04/14/Notes/矩阵乘法与求导入门/

作者

Jarfield

发布于

2026-04-14

更新于

2026-04-14

许可协议

CC BY-NC-SA 4.0

#数学基础求导矩阵

矩阵乘法与求导入门

0. 约定与记号

1. 先把矩阵乘法关系捋清楚

1.1 基本形状

1.2 三类最常见输出

2. 向量变量求导：自变量是 1 阶

2.1 线性型：

理解

2.2 二次型：

推导

2.3 范数平方：

为什么这里一定有

2.4 一页小结：向量变量

3. 矩阵变量求导：自变量是 2 阶

3.1 微分定义

3.2 最基本的线性型：

3.3 双边线性型：

3.4 Frobenius 范数平方：

推导

3.5 右乘型：

3.6 迹二次型：

4. 1 阶变量和 2 阶变量到底差在哪

4.1 本质区别

4.2 一个非常实用的判断原则

4.3 为什么矩阵求导更适合用 trace

5. 最常用公式清单

5.1 向量变量

5.2 矩阵变量

6. 一个统一视角

7. 这篇笔记的边界

作者

发布于

更新于

许可协议

Quick Start

Focus Topics

Recent Updates

标签

Starter Resources