Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

Asymmetric Feature Fusion for Image Retrieval阅读笔记

Asymmetric Feature Fusion for Image Retrieval阅读笔记

金培晟 Jarfield

0 Abstract

在非对称检索系统中,不同容量的模型部署在不同计算与存储资源的平台上。尽管已有方法取得进展,受限于查询端轻量模型的能力,现有方法在检索效率与非对称准确率之间仍存在两难。本文提出一种 Asymmetric Feature Fusion(AFF)范式:仅在图库(gallery)侧考虑不同特征之间的互补性。具体做法为:首先将每个图库图像嵌入为多种特征(例如局部特征与全局特征);随后引入动态 mixer 聚合这些特征为用于高效检索的紧凑嵌入。查询侧仅部署单个轻量模型进行特征提取。查询模型与动态 mixer 通过共享的动量更新分类器联合训练。该范式在不增加查询侧任何开销的前提下提升非对称检索准确率;在多个 landmarks 检索数据集上的详尽实验验证了其优越性。

阅读更多
FastViT: A Fast Hybrid Vision Transformer  using Structural Reparameterization 阅读笔记

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 阅读笔记

金培晟 Jarfield

0 摘要

近年来 Transformer 和卷积架构的结合促使视觉模型在准确率和效率上稳步提升。在这项工作中,作者提出了 FastViT,这是一种混合型视觉Transformer架构,在时延-准确率折中(latency-accuracy trade-off)上达到当前最佳水平。为此,作者设计了一种新颖的令牌混合(token mixing)算子 RepMixer 作为 FastViT 的基本模块。RepMixer 通过结构重参数化(structural reparameterization)移除网络中的跳跃连接(skip-connections),显著降低内存访问开销。此外,作者在训练期间引入线性过参数化(train-time overparameterization)和大卷积核(large kernel)卷积来提高模型准确率,并从实验证明这些改动对推理时延几乎没有负面影响。实验结果表明:在 ImageNet 数据集上,以相同准确率比较,FastViT 模型在移动设备上推理速度比最新的混合Transformer架构 CMT 快 3.5 倍,比 EfficientNet 快 4.9 倍,比 ConvNeXt 快 1.9 倍;在相近推理时延下,FastViT 的ImageNet Top-1准确率比 MobileOne 高出 4.2%。在图像分类、目标检测、语义分割和3D网格回归等多个任务上,FastViT 相比其他架构均取得更高的准确率且大幅降低推理时延(包括移动设备和桌面GPU)。同时,FastViT 对分布外样本和图像扰动具有更高的鲁棒性(robustness),优于现有的抗扰动模型。代码和预训练模型已开放至:FastViT

阅读更多
MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

MAR: MEDICAL ASYMMETRIC RETRIEVER FOR EFFICIENT CHINESE MEDICAL DENSE RETRIEVAL 阅读笔记

金培晟 Jarfield

0 摘要

本文提出中文医学文本嵌入基准 MedTEB,覆盖三类贴近真实场景的任务:检索、重排序与医学同义句相似度(STS)。在构建过程中,我们采用基于多模型的 LLM 标注流程以提升数据质量。对强通用嵌入模型在 MedTEB 上的评测显示,该基准具有面向领域且更具挑战性的检索评测价值。基于此,我们提出医学非对称检索器(MAR):将查询与文档编码解耦,在线用轻量查询编码器实现低延迟,离线用更强大的(LLM-based)文档编码器保证检索质量。为优化这一非对称架构,我们引入两阶段训练框架:(1)查询编码器对齐;(2) 联合微调。实验表明,MAR 在 MedTEB 上取得SOTA 性能,同时其推理速度与小型 BERT 类嵌入模型相当,兼顾准确率与效率,适用于真实的中文医学检索场景。代码、数据与模型将公开以促进后续研究。

阅读更多