这次介绍的清华的一个工作“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks” 用两个线性层代替掉Self-Attention机制,最终实现了在保持精度的同时实现速度的提升。 这个工作让人意外的是,我们可以使用MLP代替掉Attention机制,这使我们应该重新好好考虑Attention带来的性能提升的本质。
文章目录 用MLP代替掉Self-Attention Transformer中的Self-Attention机制 外部注意力 (External Attention) 实验分析 图像分类 语义分割 图像生成 用MLP代替掉Self-Attention 这次介绍的清华的一个工作 “Beyond Self-attention: External Attention using Two Li... ...
这次介绍的清华的一个工作“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks” 用两个线性层代替掉Self-Attention机制,最终实现了在保持精度的同时实现速度的提升。 这个工作让人意外的是,我们可以使用MLP代替掉Attention机制,这使我们应该重新好好考虑Attention带来的性能提升的本质。