Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

金培晟 Jarfield

0 摘要

本文提出中文医学文本嵌入基准 MedTEB,覆盖三类贴近真实场景的任务:检索、重排序与医学同义句相似度(STS)。在构建过程中,我们采用基于多模型的 LLM 标注流程以提升数据质量。对强通用嵌入模型在 MedTEB 上的评测显示,该基准具有面向领域且更具挑战性的检索评测价值。基于此,我们提出医学非对称检索器(MAR):将查询与文档编码解耦,在线用轻量查询编码器实现低延迟,离线用更强大的(LLM-based)文档编码器保证检索质量。为优化这一非对称架构,我们引入两阶段训练框架:(1)查询编码器对齐;(2) 联合微调。实验表明,MAR 在 MedTEB 上取得SOTA 性能,同时其推理速度与小型 BERT 类嵌入模型相当,兼顾准确率与效率,适用于真实的中文医学检索场景。代码、数据与模型将公开以促进后续研究。

阅读更多