Transformer模型通过多头注意力机制来捕捉输入序列中的长距离依赖关系,避免了传统循环神经网络和卷积神经网络中的信息传递瓶颈问题。Transformer模型在机器翻译、文本生成和语言建模等任务中取得了很好的效果。既然CNN卷积神经网络在计算机视觉任务上这么强大,且transformer 的注意力机制效果又这么好,是不是可以把卷积操作与注意...