一.论文 论文《EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction》来自ICCV2023。 动机:高分辨率密集预测模型需要的计算成本高,因此提出多尺度线性注意模块,使用RELU相信注意力替换softmax注意力降低计算复杂度,并通过卷积增强RELU注意力的局部信息提取能力,通过多尺度token提高多尺度学习能力。
Linear attention确实快,但是模型的容量、学习能力是比原始的softmax attention差一些的。 为此,论文引入多尺度tokens(multi-scale tokens)。 具体在下图展示。 图左边是论文提出的EfficientViT Module。由两个模块组成,一个是FFN+DWConv,另一个是Multi-Scale Linear Att。 图右边是Multi-Scale Linear Att,也就是实现...
EfficientViT is a new family of vision models for efficient high-resolution dense prediction. The core building block of EfficientViT is a new lightweight multi-scale linear attention module that achieves global receptive field and multi-scale learning with only hardware-efficient operations. 在针对高...
1. 论文信息 标题:EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction 作者:Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han 机构:清华大学、MIT、NVIDIA 原文链接:https://arxiv.org/abs/2205.14756 代码链接:https://github.com/mit-han-lab/efficientvit?tab=readme-ov...
标题:EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction 作者:Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han 机构:清华大学、MIT、NVIDIA 原文链接:https://arxiv.org/abs/2205.14756 代码链接:https://github.com/mit-han-lab/efficientvit?tab=readme-ov-file ...
2.2.1 多尺度线性注意力模块(Multi - Scale Linear Attention) ReLU线性注意力实现全局感受野:使用ReLU线性注意力替代softmax注意力来实现全局感受野。在ReLU线性注意力中,相似性函数定义为Sim(Q,K)=ReLU(Q)ReLU(K)T,通过矩阵乘法的结合律,可将计算复杂度从二次降为线性,同时避免了softmax等硬件低效操作。
本文给大家带来的改进机制是EfficientViT(高效的视觉变换网络),EfficientViT的核心是一种轻量级的多尺度线性注意力模块,能够在只使用硬件高效操作的情况下实现全局感受野和多尺度学习。本文带来是2023年的最新版本的EfficientViT网络结构,论文题目是'EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Pred...
综合实验表明,EfficientViT优于现有的高效模型,在速度和准确性之间取得了良好的平衡。例如,EfficientViT-M5在精度上超过MobileNetV3 Large 1.9%,而在Nvidia V100GPU和Intel Xeon CPU上的吞吐量分别高出40.4%和45.2%。与最近的高效型号MobileViT XXS相比,EfficientViT-M2实现了1.8%的卓越精度,同时在GPU/CPU上运行速度快...
2.2.1 多尺度线性注意力模块(Multi - Scale Linear Attention) ReLU线性注意力实现全局感受野:使用ReLU线性注意力替代softmax注意力来实现全局感受野。在ReLU线性注意力中,相似性函数定义为$Sim(Q, K)=ReLU(Q)ReLU(K)^{T}$,通过矩阵乘法的结合律,可将计算复杂度从二次降为线性,同时避免了softmax等硬件低效操作...
Lightweight Multi-Scale Attention 轻量级多尺度注意力模块旨在在边缘设备上进行语义分割时实现性能和效率的平衡。同时,在性能方面,全局感受野和多尺度学习对语义分割任务非常重要,以提高模型的性能。不同于先前的多尺度注意力机制模块,本文探索的关键点在于如何仅依赖对硬件友好的算子来实现同等的全局感受野和多尺度学习,...