Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

softmax 与 cross entropy 求导入门

softmax 与 cross entropy 求导入门

金培晟 Jarfield

这篇笔记只讲一个在深度学习里极其高频的结论:

其中 是 logits, 是标签分布。
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。

阅读更多
链式法则、矩阵求导与反向传播入门

链式法则、矩阵求导与反向传播入门

金培晟 Jarfield

上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。

这篇只抓最常用、最值得反复记住的部分:

  • 标量链式法则如何升级为向量 / 矩阵链式法则
  • 为什么反向传播本质上是在做 Jacobian^T × 上游梯度
  • 线性层、激活层、两层网络和批量训练时的梯度公式
阅读更多
矩阵乘法与求导入门

矩阵乘法与求导入门

金培晟 Jarfield

这篇笔记只做一件事:把矩阵乘法里最常见的几种求导规则讲清楚,尤其是当自变量分别是 1 阶变量(向量)2 阶变量(矩阵) 的情况。
目标不是追求最一般的张量微积分,而是先建立一套在机器学习、线性代数和最优化里足够稳定的直觉。

阅读更多