Notes Stream

Research notes, paper readings, and incremental updates

This page keeps the chronological stream, while the homepage and topic pages organize the knowledge base by structure rather than time.

FastViT: A Fast Hybrid Vision Transformer  using Structural Reparameterization 阅读笔记

FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 阅读笔记

金培晟 Jarfield

0 摘要

近年来 Transformer 和卷积架构的结合促使视觉模型在准确率和效率上稳步提升。在这项工作中,作者提出了 FastViT,这是一种混合型视觉Transformer架构,在时延-准确率折中(latency-accuracy trade-off)上达到当前最佳水平。为此,作者设计了一种新颖的令牌混合(token mixing)算子 RepMixer 作为 FastViT 的基本模块。RepMixer 通过结构重参数化(structural reparameterization)移除网络中的跳跃连接(skip-connections),显著降低内存访问开销。此外,作者在训练期间引入线性过参数化(train-time overparameterization)和大卷积核(large kernel)卷积来提高模型准确率,并从实验证明这些改动对推理时延几乎没有负面影响。实验结果表明:在 ImageNet 数据集上,以相同准确率比较,FastViT 模型在移动设备上推理速度比最新的混合Transformer架构 CMT 快 3.5 倍,比 EfficientNet 快 4.9 倍,比 ConvNeXt 快 1.9 倍;在相近推理时延下,FastViT 的ImageNet Top-1准确率比 MobileOne 高出 4.2%。在图像分类、目标检测、语义分割和3D网格回归等多个任务上,FastViT 相比其他架构均取得更高的准确率且大幅降低推理时延(包括移动设备和桌面GPU)。同时,FastViT 对分布外样本和图像扰动具有更高的鲁棒性(robustness),优于现有的抗扰动模型。代码和预训练模型已开放至:FastViT

阅读更多