这里的位置编码PE是trainable的变量,为了控制模型参数的大小,同时保证位置编码可以generalize到任意文本长度,对相对位置做了截断,毕竟当前字符确实不太可能和距离太远的字符之前存在上下文交互,所以滑动窗口的设计也很合理。如果截断长度为k,位置编码PE的dim=2k+1,下图是k=3的 Rij \[R_{ij} = PE[min(max(i-j,...
每个绝对位置应该有独一无二的位置表征 相对位置表征应该和绝对位置无关以及句子长度无关 编码可以泛化到训练样本之外的句子长度 于是便有了基于三角函数的编码方式,在pos位置,维度是dkdk的编码中,第i个元素的计算如下 PE(pos,i)={sin(wk⋅pos)if i=2kcos(wk⋅pos),if i=2k+1PE(pos,i)={sin(wk⋅...
每个绝对位置应该有独一无二的位置表征 相对位置表征应该和绝对位置无关以及句子长度无关 编码可以泛化到训练样本之外的句子长度 于是便有了基于三角函数的编码方式,在pos位置,维度是dkdk的编码中,第i个元素的计算如下 PE(pos,i)={sin(wk⋅pos)if i=2kcos(wk⋅pos),if i=2k+1PE(pos,i)={sin(wk⋅...