Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

网站更新与发布流程

网站更新与发布流程

金培晟 Jarfield

这篇是给我自己留的站点维护说明。
目标不是解释 Hexo 原理,而是把“写完内容以后,怎样稳定地同步到网站”固定成一套最短流程。

阅读更多
Shell 常用命令整理

Shell 常用命令整理

金培晟 Jarfield

Shell 的真正价值不在于“记住很多命令”,而在于把常见操作压缩成一套可重复、可组合、可自动化的工作流。
这篇文章不追求面面俱到,而是整理我最常用、也最值得长期记住的一批命令。

阅读更多
softmax 与 cross entropy 求导入门

softmax 与 cross entropy 求导入门

金培晟 Jarfield

这篇笔记只讲一个在深度学习里极其高频的结论:

其中 是 logits, 是标签分布。
很多人会记这个结果,但不清楚它为什么成立,也不清楚它在 batch、one-hot、soft label 以及数值稳定写法下分别意味着什么。

阅读更多
链式法则、矩阵求导与反向传播入门

链式法则、矩阵求导与反向传播入门

金培晟 Jarfield

上一篇讲的是“单个矩阵表达式怎么求导”,这一篇继续往前走一步:
当表达式是多层复合时,链式法则在向量和矩阵情况下到底怎么写,以及它为什么会自然长成反向传播。

这篇只抓最常用、最值得反复记住的部分:

  • 标量链式法则如何升级为向量 / 矩阵链式法则
  • 为什么反向传播本质上是在做 Jacobian^T × 上游梯度
  • 线性层、激活层、两层网络和批量训练时的梯度公式
阅读更多
矩阵乘法与求导入门

矩阵乘法与求导入门

金培晟 Jarfield

这篇笔记只做一件事:把矩阵乘法里最常见的几种求导规则讲清楚,尤其是当自变量分别是 1 阶变量(向量)2 阶变量(矩阵) 的情况。
目标不是追求最一般的张量微积分,而是先建立一套在机器学习、线性代数和最优化里足够稳定的直觉。

阅读更多
Asymmetric Feature Fusion for Image Retrieval阅读笔记

Asymmetric Feature Fusion for Image Retrieval阅读笔记

金培晟 Jarfield

0 Abstract

在非对称检索系统中,不同容量的模型部署在不同计算与存储资源的平台上。尽管已有方法取得进展,受限于查询端轻量模型的能力,现有方法在检索效率与非对称准确率之间仍存在两难。本文提出一种 Asymmetric Feature Fusion(AFF)范式:仅在图库(gallery)侧考虑不同特征之间的互补性。具体做法为:首先将每个图库图像嵌入为多种特征(例如局部特征与全局特征);随后引入动态 mixer 聚合这些特征为用于高效检索的紧凑嵌入。查询侧仅部署单个轻量模型进行特征提取。查询模型与动态 mixer 通过共享的动量更新分类器联合训练。该范式在不增加查询侧任何开销的前提下提升非对称检索准确率;在多个 landmarks 检索数据集上的详尽实验验证了其优越性。

阅读更多
FastViT: A Fast Hybrid Vision Transformer  using Structural Reparameterization 阅读笔记

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 阅读笔记

金培晟 Jarfield

0 摘要

近年来 Transformer 和卷积架构的结合促使视觉模型在准确率和效率上稳步提升。在这项工作中,作者提出了 FastViT,这是一种混合型视觉Transformer架构,在时延-准确率折中(latency-accuracy trade-off)上达到当前最佳水平。为此,作者设计了一种新颖的令牌混合(token mixing)算子 RepMixer 作为 FastViT 的基本模块。RepMixer 通过结构重参数化(structural reparameterization)移除网络中的跳跃连接(skip-connections),显著降低内存访问开销。此外,作者在训练期间引入线性过参数化(train-time overparameterization)和大卷积核(large kernel)卷积来提高模型准确率,并从实验证明这些改动对推理时延几乎没有负面影响。实验结果表明:在 ImageNet 数据集上,以相同准确率比较,FastViT 模型在移动设备上推理速度比最新的混合Transformer架构 CMT 快 3.5 倍,比 EfficientNet 快 4.9 倍,比 ConvNeXt 快 1.9 倍;在相近推理时延下,FastViT 的ImageNet Top-1准确率比 MobileOne 高出 4.2%。在图像分类、目标检测、语义分割和3D网格回归等多个任务上,FastViT 相比其他架构均取得更高的准确率且大幅降低推理时延(包括移动设备和桌面GPU)。同时,FastViT 对分布外样本和图像扰动具有更高的鲁棒性(robustness),优于现有的抗扰动模型。代码和预训练模型已开放至:FastViT

阅读更多
数据结构习题详解ustc
MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

金培晟 Jarfield

0 摘要

本文提出中文医学文本嵌入基准 MedTEB,覆盖三类贴近真实场景的任务:检索、重排序与医学同义句相似度(STS)。在构建过程中,我们采用基于多模型的 LLM 标注流程以提升数据质量。对强通用嵌入模型在 MedTEB 上的评测显示,该基准具有面向领域且更具挑战性的检索评测价值。基于此,我们提出医学非对称检索器(MAR):将查询与文档编码解耦,在线用轻量查询编码器实现低延迟,离线用更强大的(LLM-based)文档编码器保证检索质量。为优化这一非对称架构,我们引入两阶段训练框架:(1)查询编码器对齐;(2) 联合微调。实验表明,MAR 在 MedTEB 上取得SOTA 性能,同时其推理速度与小型 BERT 类嵌入模型相当,兼顾准确率与效率,适用于真实的中文医学检索场景。代码、数据与模型将公开以促进后续研究。

阅读更多

大语言模型(阅读笔记2)

金培晟 Jarfield

第二章 基础介绍

大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如 GPT-3 ,PaLM 和 LLaMA 。目前大语言模型所需要具有的最小参数规模还没有一个明确的参考标准,但是大语言模型通常是指参数规模达到百亿、千亿甚至万亿的模型;也有部分工作认为经过大规模数据预训练(显著 多于传统预训练模型如 BERT 所需要的训练数据)的数十亿参数级别的模型也可 以称之为大语言模型(如 LLaMA-2 7B)。对于大语言模型,本书泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言 理解能力和复杂任务求解能力(通过文本生成的形式)。为了帮助读者了解大语言模型的工作原理,本部分将介绍大语言模型的构建过程、扩展法则(Scaling Law)、涌现能力(Emergent Abilities),然后将介绍 GPT 系列模型的研发历程。

阅读更多