整理了一些论文,也看了很多学习视频,终于打通了任督二脉,彻底了解了注意力机制的原理与多头注意力机制。其实很多时候,并不是transformer模型有多高深的学问,而是我们对基础研究太少了,其中最重要的注意力机制,其实就是矩阵的乘法。我们对矩阵了解的 GIF +2 发布于 2023-07-28 07:00・IP 属地山东 赞同5 ...
其实QKV三矩阵,并没有什么特殊的,只是在注意力机制公式中各表示了输入矩阵的线性表示,而注意力机制的公式就是三个矩阵的乘法,了解矩阵的乘法便知道,两个矩阵相乘,便是矩阵的相似性,也可以说一个矩阵在另外一个矩阵上的投影。拿机器翻译的例子来讲,有了相似性矩阵,便就有了每个单词与其它单词的关联性数据,当我们...