Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

softmax 与 cross entropy 求导入门

softmax 与 cross entropy 求导入门

金培晟 Jarfield

这篇笔记只讲一个在深度学习里极其高频的结论:

其中 是 logits, 是标签分布。
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。

阅读更多
链式法则、矩阵求导与反向传播入门

链式法则、矩阵求导与反向传播入门

金培晟 Jarfield

上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。

这篇只抓最常用、最值得反复记住的部分:

  • 标量链式法则如何升级为向量 / 矩阵链式法则
  • 为什么反向传播本质上是在做 Jacobian^T × 上游梯度
  • 线性层、激活层、两层网络和批量训练时的梯度公式
阅读更多
矩阵乘法与求导入门

矩阵乘法与求导入门

金培晟 Jarfield

这篇笔记只做一件事:把矩阵乘法里最常见的几种求导规则讲清楚,尤其是当自变量分别是 1 阶变量(向量)2 阶变量(矩阵) 的情况。
目标不是追求最一般的张量微积分,而是先建立一套在机器学习、线性代数和最优化里足够稳定的直觉。

阅读更多
网站更新与发布流程

网站更新与发布流程

金培晟 Jarfield

这篇是给我自己留的站点维护说明。
目标不是解释 Hexo 原理,而是把“写完内容以后,怎样稳定地同步到网站”固定成一套最短流程。

阅读更多
Shell 常用命令整理

Shell 常用命令整理

金培晟 Jarfield

Shell 的真正价值不在于“记住很多命令”,而在于把常见操作压缩成一套可重复、可组合、可自动化的工作流。
这篇文章不追求面面俱到,而是整理我最常用、也最值得长期记住的一批命令。

阅读更多

大语言模型(阅读笔记2)

金培晟 Jarfield

第二章 基础介绍

大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如 GPT-3 ,PaLM 和 LLaMA 。目前大语言模型所需要具有的最小参数规模还没有一个明确的参考标准,但是大语言模型通常是指参数规模达到百亿、千亿甚至万亿的模型;也有部分工作认为经过大规模数据预训练(显著 多于传统预训练模型如 BERT 所需要的训练数据)的数十亿参数级别的模型也可 以称之为大语言模型(如 LLaMA-2 7B)。对于大语言模型,本书泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言 理解能力和复杂任务求解能力(通过文本生成的形式)。为了帮助读者了解大语言模型的工作原理,本部分将介绍大语言模型的构建过程、扩展法则(Scaling Law)、涌现能力(Emergent Abilities),然后将介绍 GPT 系列模型的研发历程。

阅读更多