Overview
Embedding Overview
Embedding 不只是“把文本映射成向量”。
它真正关心的是:如何把语义、任务相关性和可部署性压缩进一个可比较的表示空间里。
1. 它到底要解决什么问题
- 把对象表示成可用于检索、匹配、聚类、分类和重排的向量。
- 让“相似”的内容在空间里更接近,而不是只靠词面重叠。
- 在下游系统里做到可扩展、可缓存、可部署,而不是只能离线分析。
如果把生成模型看成“按 token 继续写”,那么 embedding 更像是“把内容压缩成一个能被搜索和比较的索引入口”。
2. 为什么它重要
Embedding 处在很多系统的前面一层:
- 检索系统需要它做第一跳召回。
- RAG 需要它把问题快速映射到候选知识。
- 聚类、去重、推荐、召回和排序,都依赖稳定的表征空间。
- 当模型越来越大时,低延迟、低成本的表示层反而变得更关键。
3. 一条足够实用的发展脉络
早期分布式表征
- word2vec / GloVe 主要解决词级表征。
- 核心问题是如何让“共现”转成“几何关系”。
预训练模型时代
- BERT 类模型让上下文感知表征成为主流。
- 问题从“词向量是否有效”变成“句子与段落表征如何稳定获得”。
Sentence Embedding 与 Dense Retrieval
- 关注点转向句向量、段落向量和双塔检索。
- 核心任务从 STS 延伸到检索、重排和问答召回。
Task-aware 与 Instruction-aware Embedding
- 开始强调不同任务的意图差异。
- embedding 不再只是通用语义表示,而是和任务指令、输入格式、负样本策略耦合。
Efficiency / Multilingual / Long Context / Domain-specific
- 研究重点逐步从“只看效果”转向“效果 + 成本 + 泛化 + 可迁移”。
- 这也是当前最值得系统跟踪的一组问题。
4. 现在最核心的研究问题
- 如何在不显著增加在线成本的前提下提升检索质量?
- 如何让 embedding 对不同任务与不同领域仍然有效?
- 如何处理长文本、跨语言和多模态情形?
- 如何平衡向量维度、存储成本、索引速度和检索准确率?
- 如何评估一个 embedding 模型,而不是只看某一个榜单分数?
5. 当前主流范式
Contrastive Learning
通过正负对构建表征空间,是现代 embedding 的默认起点。
Bi-encoder / Dual-encoder
在检索里最实用,因为文档向量可离线缓存,查询端只做一跳编码。
Hard Negative Mining
很多性能提升并不来自结构变化,而来自更难、更贴近真实干扰项的负样本。
Late Interaction
当单向量不够表达细粒度匹配时,ColBERT 这类方式保留更多 token 级交互。
Efficiency-oriented Design
量化、MRL、压缩、蒸馏、低维表示和 ANN 协同,不再是部署细节,而是研究主体之一。
6. 推荐从哪里切入
如果你是第一次系统接触这个方向,可以按下面顺序:
- 先看 Topics 页面,明确有哪些稳定专题。
- 再看 Resources 里的综述与 benchmark。
- 之后读 Dense Retrieval 和 Efficient Embedding。
- 最后去 Notes 看具体论文笔记和阶段理解。
7. 这个总览页的作用
这页不会追求覆盖所有工作。
它更像一个长期更新的总目录,用来回答下面这类问题:
- 这个方向现在的主战场在哪里?
- 某一篇新工作到底是在解决什么旧问题?
- 我应该把时间放在模型结构、数据构造、训练目标,还是评测与部署上?
下一步建议直接进入 Topics。