Text Embedding

Text Embedding

Text Embedding 关心的是：怎样把一句话、一段文本或一个文档压缩成足够稳定、足够有迁移性的表示。

1. 为什么这个专题是起点

很多下游任务都可以从单向量表示开始。
它是从通用语义表征走向检索、聚类和分类的桥梁。
很多后续检索和效率问题，都是在这个基础上继续演化出来的。

2. 核心问题

单向量表示能保留多少语义结构？
训练目标是更偏 STS，还是更偏检索与任务迁移？
模型要追求“通用性”还是“领域适配性”？
输入前缀、任务指令和数据构造成果到底有多大？

3. 一条实用的发展线

早期从平均词向量、InferSent、Universal Sentence Encoder 这类工作起步。
Sentence-BERT 让句向量真正成为可直接落地的工具。
SimCSE 把对比学习做得更简洁，也推动了统一句向量训练范式。
E5、BGE 一类工作则把“检索效果、任务提示和统一评测”放到更中心的位置。

4. 阅读这个专题时要重点看什么

训练目标和负样本策略，而不只是 backbone。
输入模板、query/document 前缀和任务定义。
评测集是否覆盖 retrieval、STS、clustering、classification 等不同用途。

5. 建议先读

Resources 中的 Sentence-BERT、SimCSE、E5、MTEB。
如果你更关心搜索系统，下一页直接去 Dense Retrieval。

6. 我目前更关心的部分

通用文本表示如何迁移到检索场景，而不是只在 STS 上看起来好。
当模型变大以后，是否真的还需要同样高维的在线表示。
对中文、领域文本和长文档，统一训练范式是否仍然有效。