Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

金培晟 Jarfield

0 摘要

本文提出中文医学文本嵌入基准 MedTEB,覆盖三类贴近真实场景的任务:检索、重排序与医学同义句相似度(STS)。在构建过程中,我们采用基于多模型的 LLM 标注流程以提升数据质量。对强通用嵌入模型在 MedTEB 上的评测显示,该基准具有面向领域且更具挑战性的检索评测价值。基于此,我们提出医学非对称检索器(MAR):将查询与文档编码解耦,在线用轻量查询编码器实现低延迟,离线用更强大的(LLM-based)文档编码器保证检索质量。为优化这一非对称架构,我们引入两阶段训练框架:(1)查询编码器对齐;(2) 联合微调。实验表明,MAR 在 MedTEB 上取得SOTA 性能,同时其推理速度与小型 BERT 类嵌入模型相当,兼顾准确率与效率,适用于真实的中文医学检索场景。代码、数据与模型将公开以促进后续研究。

阅读更多

大语言模型(阅读笔记2)

金培晟 Jarfield

第二章 基础介绍

大语言模型是指在海量无标注文本数据上进行预训练得到的大型预训练语言模型,例如 GPT-3 ,PaLM 和 LLaMA 。目前大语言模型所需要具有的最小参数规模还没有一个明确的参考标准,但是大语言模型通常是指参数规模达到百亿、千亿甚至万亿的模型;也有部分工作认为经过大规模数据预训练(显著 多于传统预训练模型如 BERT 所需要的训练数据)的数十亿参数级别的模型也可 以称之为大语言模型(如 LLaMA-2 7B)。对于大语言模型,本书泛指具有超大规模参数或者经过超大规模数据训练所得到的语言模型。与传统语言模型相比,大语言模型的构建过程涉及到更为复杂的训练方法,进而展现出了强大的自然语言 理解能力和复杂任务求解能力(通过文本生成的形式)。为了帮助读者了解大语言模型的工作原理,本部分将介绍大语言模型的构建过程、扩展法则(Scaling Law)、涌现能力(Emergent Abilities),然后将介绍 GPT 系列模型的研发历程。

阅读更多

大语言模型(阅读笔记1)

第一章 引言

1.1 语言模型的发展历程

语言模型的发展大致分为四个阶段:统计语言模型解决了最初的词序预测问题,但受限于稀疏性与维度灾难;神经语言模型引入词嵌入,改进语义表征;预训练模型(如 BERT、GPT-1)借助大规模无监督学习与微调,提升了上下文理解;最终演进到大语言模型(如 GPT-3/4),通过规模扩展展现出“涌现能力”。
这里最关键的转折点是 Transformer 的提出,它既解决了长程依赖问题,又适配了并行计算,为后续 LLM 奠定了基础。

1.2 大语言模型的能力特点