相对位置编码代码实现

2024-12-03 23:55:17

拼音 [ 拼音 ]

中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

这里的位置编码PE是trainable的变量,为了控制模型参数的大小,同时保证位置编码可以generalize到任意文本长度,对相对位置做了截断,毕竟当前字符确实不太可能和距离太远的字符之前存在上下文交互,所以滑动窗口的设计也很合理。如果截断长度为k,位置编码PE的dim=2k+1,下图是k=3的 Rij \[R_{ij} = PE[min(max(i-j,...
中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

每个绝对位置应该有独一无二的位置表征相对位置表征应该和绝对位置无关以及句子长度无关编码可以泛化到训练样本之外的句子长度于是便有了基于三角函数的编码方式,在pos位置,维度是dkdk的编码中,第i个元素的计算如下 PE(pos,i)={sin(wk⋅pos)if i=2kcos(wk⋅pos),if i=2k+1PE(pos,i)={sin(wk⋅...
中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

每个绝对位置应该有独一无二的位置表征相对位置表征应该和绝对位置无关以及句子长度无关编码可以泛化到训练样本之外的句子长度于是便有了基于三角函数的编码方式,在pos位置,维度是dkdk的编码中,第i个元素的计算如下 PE(pos,i)={sin(wk⋅pos)if i=2kcos(wk⋅pos),if i=2k+1PE(pos,i)={sin(wk⋅...