FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization 阅读笔记
金培晟 Jarfield
0 摘要
近年来 Transformer 和卷积架构的结合促使视觉模型在准确率和效率上稳步提升。在这项工作中,作者提出了 FastViT,这是一种混合型视觉Transformer架构,在时延-准确率折中(latency-accuracy trade-off)上达到当前最佳水平。为此,作者设计了一种新颖的令牌混合(token mixing)算子 RepMixer 作为 FastViT 的基本模块。RepMixer 通过结构重参数化(structural reparameterization)移除网络中的跳跃连接(skip-connections),显著降低内存访问开销。此外,作者在训练期间引入线性过参数化(train-time overparameterization)和大卷积核(large kernel)卷积来提高模型准确率,并从实验证明这些改动对推理时延几乎没有负面影响。实验结果表明:在 ImageNet 数据集上,以相同准确率比较,FastViT 模型在移动设备上推理速度比最新的混合Transformer架构 CMT 快 3.5 倍,比 EfficientNet 快 4.9 倍,比 ConvNeXt 快 1.9 倍;在相近推理时延下,FastViT 的ImageNet Top-1准确率比 MobileOne 高出 4.2%。在图像分类、目标检测、语义分割和3D网格回归等多个任务上,FastViT 相比其他架构均取得更高的准确率且大幅降低推理时延(包括移动设备和桌面GPU)。同时,FastViT 对分布外样本和图像扰动具有更高的鲁棒性(robustness),优于现有的抗扰动模型。代码和预训练模型已开放至:FastViT。
