MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记
金培晟 Jarfield
0 摘要
本文提出中文医学文本嵌入基准 MedTEB,覆盖三类贴近真实场景的任务:检索、重排序与医学同义句相似度(STS)。在构建过程中,我们采用基于多模型的 LLM 标注流程以提升数据质量。对强通用嵌入模型在 MedTEB 上的评测显示,该基准具有面向领域且更具挑战性的检索评测价值。基于此,我们提出医学非对称检索器(MAR):将查询与文档编码解耦,在线用轻量查询编码器实现低延迟,离线用更强大的(LLM-based)文档编码器保证检索质量。为优化这一非对称架构,我们引入两阶段训练框架:(1)查询编码器对齐;(2) 联合微调。实验表明,MAR 在 MedTEB 上取得SOTA 性能,同时其推理速度与小型 BERT 类嵌入模型相当,兼顾准确率与效率,适用于真实的中文医学检索场景。代码、数据与模型将公开以促进后续研究。
