本文从纯数学角度探讨为什么Transformer的注意力机制中,输入 x 要分别乘以 Q,K,V ,数学公式较多,仅适合对Transformer有一定初步了解的同学。 数学预警!主要涉及的数学概念有:线性代数(向量空间,基、线性变换,向量的模)。 一、Transformer自注意力机制简介 相关介绍已经很多,本文这里只简单介绍一下。 我们用一个 d ...
后记:别问「相关度系数」怎么算出来的,那是另外一个复杂的问题,通过上面数据观察可知,身高越接近,「相关度系数」越大,所有「相关度系数」加起来等于 1,理解这些就好。 2、扩展 Q 和 K 只用「身高」预估「体重」不够准确,再加上「腰围」、「腿长」等因素。 3、扩展 V 不仅能预估「体重」,还能预估「胸围」。
在自注意力机制中,有三个重要参数:q、k和v。q表示查询向量,k表示键向量,v表示值向量。当模型接收到输入时,它会将输入向量分别转换为这三个向量,并计算它们之间的相似度得分。这些得分被用来计算输入中每个位置的加权和,使得模型能够关注那些重要的位置。这种注意力机制的好处在于它可以自适应地学习输入中的关键...