金培晟 Jarfield
上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。
这篇只抓最常用、最值得反复记住的部分:
- 标量链式法则如何升级为向量 / 矩阵链式法则
- 为什么反向传播本质上是在做
Jacobian^T × 上游梯度 - 线性层、激活层、两层网络和批量训练时的梯度公式
Notes Stream
This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.
金培晟 Jarfield
上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。
这篇只抓最常用、最值得反复记住的部分:
Jacobian^T × 上游梯度