金培晟 Jarfield
这篇笔记只讲一个在深度学习里极其高频的结论:
其中
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。
Notes Stream
This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.
金培晟 Jarfield
这篇笔记只讲一个在深度学习里极其高频的结论:
其中
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。
金培晟 Jarfield
上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。
这篇只抓最常用、最值得反复记住的部分:
Jacobian^T × 上游梯度