在这个系列的第二篇文章《Transformer升级之路:2、博采众长的旋转式位置编码》中,笔者提出了旋转位置编码(RoPE)——通过绝对位置的形式实现相对位置编码的方案。一开始RoPE是针对一维序列如文本、音频等设计的(RoPE-1D),后来在《Transformer升级之路:4、二维位置的旋转式位置编码》中我们将它推广到了二维序列(RoPE-2D)...
如果这张图片位于一个长度为L的句子后面,我们这个句子的最后一个 token 的位置编码就是 (L,L),于是这张接在句子后面的图片的位置编码看上去应该是 但这并不完美,因为句子的最后一个 token 的位置是 (L,L),图片第一个 patch 的位置是 (L+1,L+1),它们相差 (1,1);假设这张图片后面再接一个句子,那么...
如果这张图片位于一个长度为L的句子后面,我们这个句子的最后一个 token 的位置编码就是 (L,L),于是这张接在句子后面的图片的位置编码看上去应该是 但这并不完美,因为句子的最后一个 token 的位置是 (L,L),图片第一个 patch 的位置是 (L+1,L+1),它们相差 (1,1);假设这张图片后面再接一个句子,那么...
如果这张图片位于一个长度为L的句子后面,我们这个句子的最后一个 token 的位置编码就是 (L,L),于是这张接在句子后面的图片的位置编码看上去应该是 但这并不完美,因为句子的最后一个 token 的位置是 (L,L),图片第一个 patch 的位置是 (L+1,L+1),它们相差 (1,1);假设这张图片后面再接一个句子,那么...