多头注意力机制:多训练几个不同的权重矩阵组合,把他们最后得到的结果拼接到一起,提高信息收集维度的数量和鲁棒性。 自注意力层最终输出的一个N*512的矩阵会输入给前馈神经网络。嗯,所以它的形状和最开始的时候输入的矩阵是一样的。即:一个多头自注意力层并不改变输入的东西的形状。 FFNN就是一个平平无奇的全连...
目录 收起 编码器的工作 自注意力机制 本人需要做扩散模型,将Unet变为Transformer。最近看了一篇外文blog,觉得写的不错,尝试对其进行总结,如有问题,请评论区指教,原文链接见于文末。 当输入一个文本的时候,会先对起进行编码,再将编码后的数据传入解码器。实际上这个编码器有很多小编码器,解码器也有很多,我们...
1. 注意力机制的产生 2. 注意力机制 2.1 原理 2.2 代码 3. 自注意力机制(Self-Attention Mechanism) 2.1 Embedding 操作 2.2 q, k 操作 2.3 v 操作 2.4 代码 4. 多头自注意力机制(Multi-head Self-Attention Machanism) 4.1 q, k 操作 4.2 v 操作 4.3 代码 5. 通道注意力机制 5.1 SENet 介绍 5.2 ...