Text Embedding

Text Embedding

Text Embedding 关心的是:怎样把一句话、一段文本或一个文档压缩成足够稳定、足够有迁移性的表示。

1. 为什么这个专题是起点

  • 很多下游任务都可以从单向量表示开始。
  • 它是从通用语义表征走向检索、聚类和分类的桥梁。
  • 很多后续检索和效率问题,都是在这个基础上继续演化出来的。

2. 核心问题

  • 单向量表示能保留多少语义结构?
  • 训练目标是更偏 STS,还是更偏检索与任务迁移?
  • 模型要追求“通用性”还是“领域适配性”?
  • 输入前缀、任务指令和数据构造成果到底有多大?

3. 一条实用的发展线

  • 早期从平均词向量、InferSent、Universal Sentence Encoder 这类工作起步。
  • Sentence-BERT 让句向量真正成为可直接落地的工具。
  • SimCSE 把对比学习做得更简洁,也推动了统一句向量训练范式。
  • E5、BGE 一类工作则把“检索效果、任务提示和统一评测”放到更中心的位置。

4. 阅读这个专题时要重点看什么

  • 训练目标和负样本策略,而不只是 backbone。
  • 输入模板、query/document 前缀和任务定义。
  • 评测集是否覆盖 retrieval、STS、clustering、classification 等不同用途。

5. 建议先读

  • Resources 中的 Sentence-BERT、SimCSE、E5、MTEB。
  • 如果你更关心搜索系统,下一页直接去 Dense Retrieval

6. 我目前更关心的部分

  • 通用文本表示如何迁移到检索场景,而不是只在 STS 上看起来好。
  • 当模型变大以后,是否真的还需要同样高维的在线表示。
  • 对中文、领域文本和长文档,统一训练范式是否仍然有效。