金培晟 Jarfield
这篇笔记只讲一个在深度学习里极其高频的结论:
其中
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。
Notes Stream
This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.
金培晟 Jarfield
这篇笔记只讲一个在深度学习里极其高频的结论:
其中
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。
金培晟 Jarfield
上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。
这篇只抓最常用、最值得反复记住的部分:
Jacobian^T × 上游梯度金培晟 Jarfield
这篇笔记只做一件事:把矩阵乘法里最常见的几种求导规则讲清楚,尤其是当自变量分别是 1 阶变量(向量) 和 2 阶变量(矩阵) 的情况。
目标不是追求最一般的张量微积分,而是先建立一套在机器学习、线性代数和最优化里足够稳定的直觉。
金培晟 Jarfield
Shell 的真正价值不在于“记住很多命令”,而在于把常见操作压缩成一套可重复、可组合、可自动化的工作流。
这篇文章不追求面面俱到,而是整理我最常用、也最值得长期记住的一批命令。
金培晟 Jarfield
大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如 GPT-3 ,PaLM 和 LLaMA 。目前大语言模型所需要具有的最小参数规模还没有一个明确的参考标准,但是大语言模型通常是指参数规模达到百亿、千亿甚至万亿的模型;也有部分工作认为经过大规模数据预训练(显著 多于传统预训练模型如 BERT 所需要的训练数据)的数十亿参数级别的模型也可 以称之为大语言模型(如 LLaMA-2 7B)。对于大语言模型,本书泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言 理解能力和复杂任务求解能力(通过文本生成的形式)。为了帮助读者了解大语言模型的工作原理,本部分将介绍大语言模型的构建过程、扩展法则(Scaling Law)、涌现能力(Emergent Abilities),然后将介绍 GPT 系列模型的研发历程。