我的理解是Transformer只有在train的时候是并行的,测试的时候机制和RNN一样,都是一个个单词预测的,只不过预测第i+1个单词使用的是前i个单词的output,因此不存在需要真实标签输入的问题,具体可以看下知乎这个链接Transformer测试时的解码过程 2022-06-10 回复36查看全部 39 条回复 个耿耿于怀 写的挺好...
Transformer模型详解(图解最完整版) - 知乎 (zhihu.com)十分钟理解Transformer - 知乎 (zhihu.com)【Transformer模型】曼妙动画轻松学,形象比喻贼好记_哔哩哔哩_bilibili The Annotated Transformer (harvard.edu)The Annotated Transformer的中文注释版(1) - 知乎 (zhihu.com)The Annotated Transformer(...
转载自: Transformer模型详解(图解最完整版) - 知乎 (zhihu.com)前言Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作…